主要内容

MANOVA

MANOVA简介

方差分析技术进行单向方差分析获取一组分组数据,并确定变量的均值在组间是否有显著差异。通常有多个响应变量,您感兴趣的是确定整个均值集在一个组与下一个组之间是否不同。有一个多元版本的方差分析可以解决这个问题。

多反应方差分析

carsmall数据集对1970年、1976年和1982年的各种汽车模型进行了测量。假设您对汽车的特性是否随时间而变化感兴趣。

负载carsmall
名称大小字节分类属性加速度100x1 800双气缸100x1 800双排量100x1 800双马力100x1 800双MPG 100x1 800双Mfg 100x13 2600 char型号100x33 6600 char Model_Year 100x1 800双原产地100x7 1400 char重量100x1 800双

其中四个变量(加速度位移马力,英里/加仑)是对个别车型的连续测量。的变量Model_Year表示汽车的制造年份。方法可以创建这些变量的分组绘图矩阵gplotmatrix函数。

方法创建这些变量的分组绘图矩阵gplotmatrix函数。

x = [MPG马力排量重量];Model_Year gplotmatrix (x, [], [],xo ' + '

图中包含16个轴对象。Axes对象1包含3个line类型的对象。坐标轴对象2包含3个line类型的对象。坐标轴对象3包含3个line类型的对象。Axes对象4包含3个line类型的对象。坐标轴对象5包含3个line类型的对象。坐标轴对象6包含3个line类型的对象。Axes对象7包含3个line类型的对象。Axes对象8包含3个line类型的对象。Axes对象9包含3个line类型的对象。 Axes object 10 contains 3 objects of type line. Axes object 11 contains 3 objects of type line. Axes object 12 contains 3 objects of type line. Axes object 13 contains 3 objects of type line. Axes object 14 contains 3 objects of type line. Axes object 15 contains 3 objects of type line. Axes object 16 contains 3 objects of type line. These objects represent 70, 76, 82.

(当的第二个参数gplotmatrix为空,函数图的列x互相争论,并沿对角线放置直方图。第四个空参数生成一个具有默认颜色的图形。第五个参数控制用来区分不同组的符号。)

看起来每年的车都不一样。例如,右上方的图表是英里/加仑重量.1982年的车似乎比老式的车有更高的里程,而且它们的平均重量似乎更轻。但作为一个整体,这三年之间是否有显著差异?的manova1函数可以回答这个问题。

[d,p,stats] = manova1(x,Model_Year)
D = 2
p =2×1106× 0.0000 0.1141
统计=带字段的结构:W: [4x4 double] B: [4x4 double] T: [4x4 double] dfW: 90 dfB: 2 dfT: 92 lambda: [2x1 double] chisq: [2x1 double] chisqdf: [2x1 double] eigenval: [4x1 double] eigenvec: [4x4 double] canon: [100x4 double] mdist:[2.8187 0.7899 0.6187 0.4050 0.8538 4.2337 6.0117 4.9600…gmdist: [3x3 double] gnames: {3x1 cell}

manova1函数产生三个输出:

  • 第一个输出d是群均值维数的估计。如果平均值都相同,则维数为0,表示平均值在同一点上。如果平均值不同,但沿一条线落,则维数为1。在这个例子中,维度是2,表示这个组意味着落在一个平面上,而不是沿着一条线。这是三组平均数的最大可能维度。

  • 第二个输出p的向量p-值用于一系列测试。第一个p-value测试维数是否为0,然后测试维数是否为1,依此类推。在这种情况下p-value值很小。这就是为什么估计的维数是2。

  • 第三输出统计数据包含多个字段的结构,将在下一节中描述。

字段统计数据结构

WB,T在普通的单向方差分析中,字段是类似于内平方和、间平方和的矩阵。接下来的三个域是这些矩阵的自由度。字段λchisq,chisqdf都是检验成分对于群体维数的手段。(p的第一个输出参数manova1.)

接下来的三个字段用于进行规范分析。回想一下主成分分析(PCA)你寻找原始变量的组合有最大的可能变化。在多元方差分析中,你要寻找原始变量的线性组合,在组之间有最大的分离。在单变量单向方差分析中,它是给出最显著结果的单一变量。找到该组合后,接下来查找分离度第二高的组合,依此类推。

eigenvecField是一个矩阵,它定义了原始变量线性组合的系数。的特征值Field是一个向量,用于测量对应线性组合的组间方差与组内方差之比。的佳能字段是规范变量值的矩阵。每一列都是以均值为中心的原始变量的线性组合,使用的系数来自eigenvec矩阵。

C1 = stats.canon(:,1);C2 = stats.canon(:,2);

绘制前两个规范变量的分组散点图。

图gscatter (c1, c2 Model_Year, [],“牛”

图中包含一个轴对象。axis对象包含3个line类型的对象。这些对象代表70,76,82。

前两个典型变量的分组散点图比任意一对原始变量的分组散点图显示更多的组间分离。在这个例子中,它显示了三个点云,重叠但中心不同。右下角的一个点与其他点分开。方法在图上标记此点gname函数。

粗略地说,第一个规范变量,c1,将1982年的车分开(这些车的值很高c1)。第二个规范变量,c2,显示了1970年和1976年的车型之间的一些差异。

的最后两个字段统计数据结构是马氏距离。的选择Field测量从每个点到其组均值的距离。具有较大值的点可能是异常值。在这个数据集中,最大的异常值是散点图中的别克旅行车。(注意,您可以将模型名称提供给gname如果你想用模型名而不是行号来标记点,则使用上面的函数。)

求离群均值的最大距离。

马克斯(stats.mdist)
Ans = 31.5273

找出与群均值距离最大的点。

找到(统计数据。选择== ans)
Ans = 20

找出与组均值距离最大的汽车模型。

:模型(20日)
Ans =“别克旅行车(sw)”

gmdist场测量每对组均值之间的距离。检查分组使用方式grpstats

grpstats (x, Model_Year)
ans =3×4103.× 0.0177 0.1489 0.2869 3.4413 0.0216 0.1011 0.1978 3.0787 0.0317 0.0815 0.1289 2.4535

求每对组均值之间的距离。

stats.gmdist
ans =3×30 3.8277 11.1106 3.8277 0 6.1374 11.1106 6.1374 0

正如预期的那样,极端年份1970年和1982年(11.1)之间的多元距离大于间隔较近年份(3.8年和6.1年)之间的差异。这与散点图是一致的,在散点图中,随着年份的变化,从1970年到1976年再到1982年,这些点似乎遵循一个进程。如果您有更多的组,您可能会发现使用manovacluster函数绘制了一个图表,该图表展示了使用其均值之间的距离形成的组的聚类。

另请参阅

|||