文档

分组变量

什么是分组变量?

分组变量是用于对观察结果进行分组或分类的效用变量。分组变量对于按组总结或可视化数据非常有用。分组变量可以是以下任何一种数据类型:

  • 数值向量

  • 逻辑向量

  • 字符数组

  • 字符串数组

  • 字符向量的单元格数组

  • 分类向量

分组变量必须与要分组的表、数据集数组或数值数组具有相同的观察数(行数)。具有相同分组变量值的观测值属于同一组。

例如,以下变量组成相同的组。每个分组变量将五个观测值分为两组。第一组包含第一和第四项观察结果。其他三个观察结果属于第二组。

数据类型 分组变量
数值向量 [1 2 2 1 2]
逻辑向量 [0 1 1 0 1]
字符串数组 ["男”、“女”、“女性”,“男”,“女性”)
字符向量的单元格数组 {'男','女','女','男','女'}
分类向量 男女女男女

使用带标签的分组变量,为每个组赋予有意义的名称。分类向量是一种高效灵活的分组变量选择方法。

组定义

通常,分组变量中的组与唯一值一样多。但是,分类向量可能具有数据中没有表示的级别。分组和分组的顺序取决于分组变量的数据类型。假设G是分组变量。

  • 如果G是数值向量还是逻辑向量,则组中对应的值不同G,按唯一值的排序顺序。

  • 如果G是字符数组,字符串数组,或单元格数组的字符向量,那么组对应的不同元素在G,按照它们首次出现的顺序排列。

  • 如果G是一个分类向量,那么分组对应的唯一类别级别在G,按返回的顺序类别

一些函数,例如grpstats,接受指定为分组变量单元格数组的多个分组变量,例如:{G1, G2, G3}.在这种情况下,组是由分组变量中值的唯一组合定义的。顺序首先由第一个分组变量的顺序决定,然后由第二个分组变量的顺序决定,依此类推。

使用变量分组分析

该表列出了您可能希望使用分组变量执行的常见任务。

分组的任务 接受分组变量的函数
为不同组的数据绘制并排的箱形图。 箱线图
用按组着色的标记绘制散点图。 gscatter
用按组着色的标记绘制散点图矩阵。 gplotmatrix
按组计算汇总统计信息。 grpstats
检验组均值之间的差异。 anovan
从分组变量创建索引向量。 grp2idx

组值缺失

如果包含有效的指示器,分组变量可能会有缺失值。

变量数据类型分组 缺失值指示器
数值向量
逻辑向量 (不能错过)
字符数组 空格行
字符串数组 < >失踪""
字符向量的单元格数组
分类向量 <定义>

另请参阅

相关的例子

更多关于