主要内容

单向方差分析

单向方差分析简介

你可以使用这个函数anova1进行单向方差分析(ANOVA)。单向方差分析的目的是确定一个因素的几个组(水平)的数据是否具有共同的平均值。也就是说,单向方差分析使您能够发现一个自变量的不同组是否对响应变量有不同的影响y.假设,一家医院想要确定两种新提出的排班方法是否比旧的排班方法更能减少病人的等待时间。在这种情况下,自变量为调度方法,响应变量为患者的等待时间。

的一种简单的特殊情况线性模型.模型的单向方差分析形式为

y j α j + ε j

基于以下假设:

  • yj是一种观察,在其中表示观测数,和j表示变量的不同组(级别)y.所有yj是独立的。

  • αj的总体均值j第组(水平或治疗)。

  • εj为随机误差,独立正态分布,均值为零,方差为常数,即εj~ N (0,σ2).

这个模型也被称为意味着模型.该模型假设的列y都是常数αj加上误差分量εj.方差分析有助于确定常数是否都相同。

方差分析检验所有组均值相等的假设( H 0 α 1 α 2 ... α k ),而非另一种假设,即至少有一组与其他组不同( H 1 α α j 至少有一个而且j).anova1 (y)对矩阵中的数据进行列均值相等性检验y,其中每一列是不同的组,具有相同的观察数(即平衡设计)。anova1 (y组)中指定的组均值的相等性集团,表示向量或矩阵形式的数据y.在这种情况下,每个组或列可以有不同数量的观察(即,不平衡设计)。

方差分析是基于所有样本总体正态分布的假设。已知它对适度违反这一假设是稳健的。您可以使用正态图(normplot).或者,您可以使用统计数据和机器学习工具箱™中的一个函数来检查是否正常:Anderson-Darling测试(adt),卡方拟合优度检验(chi2gof)、Jarque-Bera测验(制造商jbt),或Lilliefors测试(lillietest).

为单向方差分析准备数据

您可以以向量或矩阵的形式提供示例数据。

  • 如果样本数据在一个向量中,y,则必须使用集团输入变量:anova1 (y组)

    集团必须是数字向量、逻辑向量、分类向量、字符数组、字符串数组或单元格数组的字符向量,每个元素都有一个名称y.的anova1函数处理y的相同值对应的值集团作为同一群体的一部分。例如,

    数据输入参数y和组输入参数g的示例。g中的每个元素表示y中相应元素的组名。

    当组具有不同数量的元素(不平衡方差分析)时使用此设计。

  • 如果样本数据在一个矩阵中,y,提供分组信息是可选的。

    • 如果您没有指定输入变量集团,然后anova1处理的每一列y作为一个单独的组,并评估列的总体均值是否相等。例如,

      矩阵形式的样本数据输入参数Y的示例,说明anova1如何将Y的每一列作为一个单独的组

      当每个组具有相同数量的元素(平衡方差分析)时,使用这种形式的设计。

    • 如果你指定了输入变量集团,然后每个元素都进去集团中对应列的组名y.的anova1函数将具有相同组名的列视为同一组的一部分。例如,

      示例中的样本数据输入参数Y为矩阵形式,组输入参数group为组。group中的每个元素表示Y中对应列的组名。

anova1忽略任何一个y.同样,如果集团包含空或值,anova1中忽略相应的观测值y.的anova1函数在忽略空或后,如果每组有相同数量的观测值,则函数进行平衡方差分析值。否则,anova1进行不平衡方差分析。

进行单向方差分析

这个例子展示了如何执行单向方差分析来确定来自几个组的数据是否具有共同的平均值。

加载并显示示例数据。

负载霍格霍格
豪格=6×524 14 11 7 19 15 7 9 7 24 21 12 7 4 19 27 17 13 7 15 33 14 12 12 10 23 16 18 18 20

数据来自Hogg和Ledolter(1987)对牛奶运输中细菌数量的研究。矩阵的列霍格表示不同的出货量。这些排是从每批货物中随机抽取的牛奶盒中的细菌计数。

测试一些发货是否比其他发货有更高的计数。默认情况下,anova1返回两个数字。一个是标准方差分析表,另一个是分组数据的箱形图。

[p,tbl,stats] = anova1(hogg);

图单向方差分析包含uicontrol类型的对象。

图中包含一个轴对象。axis对象包含35个line类型的对象。一行或多行仅使用标记显示其值

p
P = 1.1971e-04

p-value约为0.0001,表示不同发货的细菌数量不相同。

通过箱形图,你可以从图形上确定均值是不同的。然而,缺口比较的是中位数,而不是平均值。有关此显示器的详细信息,请参见箱线图

查看标准方差分析表。anova1将标准ANOVA表保存为输出参数中的单元格数组资源描述

资源描述
台=4×6单元格数组{‘源’}{“党卫军”}{“df”}{‘女士’}{' F '}{遇到的问题> F '}{“列”}{[803.0000]}{[4]}{[200.7500]}{[9.0076]}{[1.1971 e-04]}{‘错误’}{[557.1667]}{[25]}{[22.2867]}{0 x0双}{0 x0双}{“总”}{[1.3602 e + 03]} {[29]} {0 x0双}{0 x0双}{0 x0双}

保存F-变量中的统计值函数

Fstat = tbl{2,5}
Fstat = 9.0076

查看必要的统计数据,以便对组均值进行多重成对比较。anova1在结构中保存这些统计信息统计数据

统计数据
统计=带字段的结构:Gnames: [5x1 char] n: [6 666 66] source: 'anova1' means: [23.8333 13.3333 11.6667 9.1667 17.8333] df: 25 s: 4.7209

方差分析拒绝所有组均值相等的零假设,因此您可以使用多重比较来确定哪些组均值与其他组均值不同。若要执行多个比较测试,请使用该函数multcompare,接受统计数据作为输入参数。在这个例子中,anova1拒绝原假设,即所有四批货物的平均细菌数量相等,即, H 0 μ 1 μ 2 μ 3. μ 4

执行多重比较测试,以确定哪些货物在平均细菌计数方面与其他货物不同。

结果= multicompare (stats);

图多重均值比较包含一个坐标轴对象。单击要测试的组,xlabel 3个组的含义与第1组包含11个类型为line的对象有显著不同。一行或多行仅使用标记显示其值

该图也说明了同样的结果。蓝色条显示了第一组均值的比较区间,它与第二组、第三组和第四组均值的比较区间(用红色表示)不重叠。第五组均值的比较区间(灰色显示)与第一组均值的比较区间重叠。因此,第1组和第5组的组均值没有显著差异。

以表格形式显示多个比较结果。

TBL = array2table(结果,“VariableNames”...“组”“B组”“下限”“a - b”“上限”“假定值”])
台=10×6表A组B组下限A-B上限P-value _______ _______ ___________ _______ ___________ _________ 12 2.4953 10.5 18.505 0.0059332 1 3 4.1619 12.167 20.171 0.0012925 14 6.6619 14.667 22.671 0.21195 1 5 -2.0047 6 14.005 0.21195 2 3 -6.3381 1.6667 9.6714 0.97193 2 4 -3.8381 4.1667 12.171 0.55436 25 -12.505 -4.5 3.5047 0.48062 3 4 -5.5047 2.5 10.505 0.88757 3 5 -16.671 -8.6667 -0.66193 0.029175

前两列显示了相互比较的组均值。例如,第一行比较第1组和第2组的平均值。最后一列显示p-values用于测试。的p-值0.0059、0.0013和0.0001表示第一批牛奶中的平均细菌数与第二、第三和第四批牛奶中的细菌数不同。的p-value为0.0292表示第四批牛奶中细菌的平均数量与第五批不同。这个过程无法拒绝另一组人的意思是彼此不同的假设。

数学细节

方差分析检验组内差异的方法是将数据中的总变异分为两个部分:

  • 组均值相对于总均值的变化,即 y ¯ j y ¯ .. (组间差异),其中 y ¯ j 是组的样本均值吗j, y ¯ .. 是总体样本均值。

  • 各组观察值与组均值之间的差异, y j y ¯ j (组内变异)。

换句话说,方差分析将总平方和(SST)划分为由于组间效应(SSR)的平方和和(SSE)。

j y j y ¯ .. 2 年代 年代 T j n j y ¯ j y ¯ .. 2 年代 年代 R + j y j y ¯ j 2 年代 年代 E

在哪里nj样本量是多少jth集团,j= 1, 2,…k

然后方差分析比较组间变异和组内变异。如果组间变异与组内变异之比显著高,则可以得出组间均值显著不同的结论。您可以使用具有F-分布与(k- 1,N- - - - - -k)自由度:

F 年代 年代 R k 1 年代 年代 E N k 年代 R 年代 E F k 1 N k

在哪里MSR是均方处理,均方误差是均方误差,k是组数,和N是观测的总数。如果p-valueF-statistic小于显著性水平,则检验拒绝所有组均值相等的原假设,并得出组均值中至少有一个与其他组均值不同的结论。最常见的显著性水平为0.05和0.01。

方差分析表

方差分析表按来源捕获模型中的可变性F-statistic用于测试此可变性的显著性,以及p-value用于决定该可变性的重要性。的p-value返回anova1取决于随机干扰的假设εj在模型方程中。为p-value是正确的,这些干扰需要是独立的,正态分布的,并且有恒定的方差。标准的ANOVA表有这样的形式:

anova1返回标准ANOVA表为一个六列的单元格数组。

定义
可变性的来源。
党卫军 由于每个源的平方和。
df 与每个源相关的自由度。假设N观察的总数和k是组的数目。然后,N- - - - - -k是组内自由度(错误),k- 1为组间自由度(),N- 1为总自由度:N- 1 = (N- - - - - -k) + (k- 1)。
女士 每个源的均方,也就是比值SS / df
F F-statistic,即均值平方之比。
概率F > p的概率F-statistic的取值可以大于test-statistic的计算值。anova1从的CDF中得到这个概率F分布。

方差分析表的行显示了数据的可变性,除以来源。

行(源) 定义
由于组均值之间的差异而产生的可变性(可变性之间的组)
错误 由于各组数据与组均值之间的差异而产生的可变性(可变性)组)
总计 总变化

参考文献

[1]吴春峰,滨田明。实验:规划、分析和参数优化设计, 2000年。

[2]内特,M. H.库特纳,C. J.纳赫茨海姆,W.沃瑟曼,第4版。应用线性统计模型.欧文出版社,1996年。

另请参阅

||

相关的话题