请注意
的名义上的
和序数
不推荐使用阵列数据类型。若要表示有序和无序的离散非数字数据,请使用分类数组数据类型。
在处理分类变量及其级别时,您将遇到一些典型的挑战。该表总结了可以使用标称数组或序数数组来操作类别级别的函数。对于其他函数,请键入方法的名义
或方法顺序
在命令行,或查看名义上的
和序数
参考页面。
任务 | 函数 |
---|---|
添加新的类别级别 | addlevels |
类别水平下降 | droplevels |
结合分类水平 | mergelevels |
重新排序类别水平 | reorderlevels |
计算每一类观测的数量 | levelcounts |
更改类别级别的标签或名称 | setlabels |
创造一个互动因素 | 次 |
找到不属于定义类别的观察结果 | isundefined |
可以在各种统计分析中使用标称数组和序数数组。例如,您可能希望计算按类别级别分组的数据的描述性统计信息,对类别平均值之间的差异进行统计测试,或使用类别预测器执行回归分析。
接受分组变量作为输入参数的Statistics和Machine Learning Toolbox™函数接受标称数组和序数数组。这包括描述性函数,如:
您还可以使用标称数组和序数数组作为输入参数,以基于模型分析函数和方法,例如:
当您在这些函数中使用标称或序数数组作为预测器时,拟合函数会自动识别分类预测器,并构造适当的虚拟指标变量进行分析。或者,您可以使用下面的命令构造您自己的虚拟指示符变量dummyvar
.
类别变量的级别通常被定义为文本,在字符向量或单元格数组中存储和操作文本可能代价很高字符
数组中。标称数组和序数数组分别存储类别成员关系和类别标签,大大减少了存储变量所需的内存量。
例如,加载一些示例数据:
负载(“fisheriris”)
物种
是一个字符向量的单元格数组,需要19,300字节的内存。
转换物种
到标称数组:
物种=名义(物种);
存储变量所需的内存减少了95%。