分组变量
什么是分组变量?
分组变量是用于对观察结果进行分组或分类的效用变量。分组变量对于按组总结或可视化数据非常有用。分组变量可以是以下任何一种数据类型:
数值向量
逻辑向量
字符数组
字符串数组
字符向量的单元格数组
分类向量
分组变量必须与要分组的表、数据集数组或数值数组具有相同的观察数(行数)。具有相同分组变量值的观测值属于同一组。
例如,以下变量组成相同的组。每个分组变量将五个观测值分为两组。第一组包含第一和第四项观察结果。其他三个观察结果属于第二组。
数据类型 | 分组变量 |
---|---|
数值向量 | [1 2 2 1 2] |
逻辑向量 | [0 1 1 0 1] |
字符串数组 | ["男”、“女”、“女性”,“男”,“女性”) |
字符向量的单元格数组 | {'男','女','女','男','女'} |
分类向量 | 男女女男女 |
使用带标签的分组变量,为每个组赋予有意义的名称。分类向量是一种高效灵活的分组变量选择方法。
组定义
通常,分组变量中的组与唯一值一样多。但是,分类向量可能具有数据中没有表示的级别。分组和分组的顺序取决于分组变量的数据类型。假设G
是分组变量。
如果
G
是数值向量还是逻辑向量,则组中对应的值不同G
,按唯一值的排序顺序。如果
G
是字符数组,字符串数组,或单元格数组的字符向量,那么组对应的不同元素在G
,按照它们首次出现的顺序排列。如果
G
是一个分类向量,那么分组对应的唯一类别级别在G
,按返回的顺序类别
.
一些函数,例如grpstats
,接受指定为分组变量单元格数组的多个分组变量,例如:{G1, G2, G3}
.在这种情况下,组是由分组变量中值的唯一组合定义的。顺序首先由第一个分组变量的顺序决定,然后由第二个分组变量的顺序决定,依此类推。
使用变量分组分析
该表列出了您可能希望使用分组变量执行的常见任务。
组值缺失
如果包含有效的指示器,分组变量可能会有缺失值。
变量数据类型分组 | 缺失值指示器 |
---|---|
数值向量 | 南 |
逻辑向量 | (不能错过) |
字符数组 | 空格行 |
字符串数组 | < >失踪 或"" |
字符向量的单元格数组 | ” |
分类向量 | <定义> |