主要内容

交叉表

交叉表

描述

例子

资源描述=交叉表(x1x2返回一个交叉表,资源描述,两个相同长度的向量,x1x2

例子

资源描述=交叉表(x1,…,xn返回多维交叉列表,资源描述,表示多个输入向量的数据,x1x2、……xn

例子

资源描述chi2p) =交叉表(___也返回卡方统计,chi2,它的p值,p,用于测试资源描述在每个维度都是独立的。您可以使用前面的任何语法。

例子

资源描述chi2p标签) =交叉表(___也返回单元格数组,标签,其中为每个输入参数包含一列标签,x1...xn

例子

全部折叠

创建两个样本数据向量,分别包含三个和四个不同的值。

X = [1 1 2 3 1];Y = [1 2 5 3 1];

Cross-tabulatexy

表=交叉表(x, y)
表=3×42 1 0 0 0 0 1 0 0 1 0 0

的行表格对应于中三个不同的值x,列对应于中四个不同的值y

生成两个独立的向量,x1x2,每个包含50个范围内的离散均匀随机数1:3

rng默认的%的再现性x1 = unidrnd(3, 50岁,1);x2 = unidrnd(3, 50岁,1);

Cross-tabulatex1x2

(表、chi2 p) =交叉表(x1, x2)
表=3×31 6 7 5 5 2 11 7 6
chi2 = 7.5449
p = 0.1097

返回的p的价值0.1097表明,在5%显著性水平下,交叉表无法拒绝零假设表格在每个维度都是独立的。

加载样本数据,其中包含1970-1982年期间大型车型的测量数据。

负载carbig

交叉表格四缸车数据(cyl4),以模式年计算()及原产国(org).

(表、chi2 p、标签)=交叉表(cyl4, org);

使用标签来确定索引位置表格在数据的后期,美国制造的四缸汽车的数量。

标签
标签=3×3单元阵列{'其他'}{‘早’}{‘美国’}{‘四’}{“中期”}{“欧洲”}{0 x0双}{“末”}{‘日本’}

第一列标签对应的数据cyl4,表示该行2表格包含四缸汽车的数据。第二列标签对应的数据,表示该列3.表格包含后期生产的汽车的数据。第三列标签对应的数据org,表示该位置1第三维度的表格包含了美国制造的汽车的数据。

因此,表(2、3、1)包括后期在美国生产的四缸汽车的数量。

表(2、3、1)
ans = 38

数据包括38辆后期在美国生产的四缸车。

根据数据创建列联表,并将该表可视化为热图。

载入医院数据

负载医院

医院数据集阵列包含100名住院患者的数据,包括姓氏、性别、年龄、体重、吸烟状况以及收缩压和舒张压测量值。

将数据集数组转换为MATLAB®表。

台= dataset2table(医院);

通过创建吸烟者和不吸烟者的2 × 2列联表,按性别分组,确定吸烟状态是否独立于性别。

[conttbl chi2 p、标签]=交叉表(Tbl.Sex Tbl.Smoker)
conttbl =2×240 13 26 21
chi2 = 4.5083
p = 0.0337
标签=2 x2细胞{'Female'} {'0'} {'Male'} {'1'}

列联表的行数conttbl对应于患者性别,第1行包含女性数据,第2行包含男性数据。这些列对应于患者吸烟状况,其中第1列包含非吸烟者的数据,第2列包含吸烟者的数据。返回的结果chi2 = 4.5083是独立皮尔森卡方检验统计量的值。的 p 测试的值p = 0.0337建议,在5%的显著性水平上,拒绝性别和吸烟状况是独立的无效假设。

在热图中想象列联表。图上的吸烟状况 x -轴和性别 y 设在。

热图(资源描述,“抽烟”“性”

图中包含一个热图类型的对象。类型热图的图表的标题是性别与吸烟者的数量。

输入参数

全部折叠

输入向量,指定为分组变量的向量。所有的输入向量,包括x1x2、……xn,长度必须相同。

数据类型:||字符|字符串|逻辑|分类

输入向量,指定为分组变量的向量。所有的输入向量,包括x1x2、……xn,长度必须相同。

数据类型:||字符|字符串|逻辑|分类

输入向量,指定为分组变量的向量。如果使用此语法指定两个以上的输入向量,则交叉表生成多维交叉列表表。所有的输入向量,包括x1x2、……xn,长度必须相同。

数据类型:||字符|字符串|逻辑|分类

输出参数

全部折叠

交叉列表表,作为一个整数值矩阵返回。

如果你指定两个输入向量,x1x2,然后资源描述是一个——- - - - - -n矩阵,中不同值的数目x1n中不同值的数目x2

如果你指定三个或更多的输入向量,那么台(i, j,…,n)索引的计数在哪里grp2idx (x1)grp2idx (x2)jgrp2idx (x3)k,等等。

卡方统计量,作为正标量值返回。零假设是资源描述是每个维度中比例的乘积。

卡方检验统计量的p值,作为范围内的标量值返回[0, 1]交叉表测试,资源描述在每个维度都是独立的。

数据标签,作为单元格数组返回。第一列中的条目是行的标签资源描述,第二列中的条目是列的标签,以此类推资源描述

算法

  • 交叉表使用grp2idx将一个正整数赋给每个不同的值。台(i, j)索引的计数在哪里grp2idx (x1)grp2idx (x2)j.的数字顺序grp2idx (x1)grp2idx (x2)的行和列的顺序资源描述,分别。

    在本例中,返回值为台(i, j,…,n)索引的计数在哪里grp2idx (x1)grp2idx (x2)jgrp2idx (x3)k,等等。

  • 交叉表计算p-卡方检验统计量的值,使用一个公式,该公式在大样本量下渐近有效。对于小样本或边缘分布不均匀的样本,这种近似不太准确。如果示例只包含两个变量,且每个变量有两个级别,则可以使用fishertest代替。这个函数执行Fisher精确检验,它不依赖于大样本分布假设。

扩展功能

之前介绍过的R2006a