笔记
这义务
和序单
不建议使用阵列数据类型。表示有序和无序离散,非数字数据,使用分类阵列数据类型代替。
在处理分类变量及其级别时,您将遇到一些典型的挑战。该表总结了可以使用标称数组或序数数组来操作类别级别的函数。对于其他函数,请键入方法标称
或方法序数
在命令行,或看义务
和序单
参考页面。
任务 | 功能 |
---|---|
添加新类别级别 | advlevels. |
删除类别水平 | Droplevels. |
结合类别水平 | mergelevels. |
重新排序类别级别 | ReorderLevels. |
计算每个类别中的观测数量 | levelcounts. |
更改类别级别的标签或名称 | setlabels. |
创建互动因子 | 时代 |
找到不属于定义类别的观察结果 | 却 |
您可以在各种统计分析中使用标称和序数阵列。例如,您可能希望计算由类别级别分组的数据的描述性统计数据,对类别装置之间的差异进行统计测试,或使用分类预测器执行回归分析。
统计和机器学习工具箱™函数接受分组变量作为输入参数接受标称和序数阵列。这包括描述性功能,例如:
您还可以使用标称和序数阵列作为基于模型的分析功能和方法的输入参数,例如:
当您在这些功能中使用标称或序数阵列作为预测器时,拟合功能会自动识别分类预测器,并构建适当的伪指示器变量进行分析。或者,您可以使用自己的虚拟指示器变量来构造戴维尔
。
分类变量的级别通常被定义为文本,它可以昂贵地存储和操作字符向量的单元格数组或char
大批。名义和序数阵列单独存储类别成员资格和类别标签,大大减少存储变量所需的内存量。
例如,加载一些示例数据:
加载('渔民')
物种
是需要19,300字节的内存的字符向量的单元格数组。
转变物种
到一个标称阵列:
物种=名义(物种);
存储变量所需的内存减少了95%。