主要内容

单向方差分析

单向方差分析简介

您可以使用该功能anova1进行单向方差分析(ANOVA)。单因素方差分析的目的是确定一个因素的几个组(水平)的数据是否有一个共同的平均值。也就是说,单因素方差分析可以让你发现不同组的自变量是否对响应变量有不同的影响y.假设,一家医院想要确定这两种新的预约方法是否比旧的预约方法更能减少病人等待时间。在这种情况下,自变量为调度方法,响应变量为患者的等待时间。

单向Anova是一个简单的特殊情况线性模型.模型的单向ANOVA形式是

y j α. j + ε. j

假设如下:

  • yj是一个观察,在哪个代表观察号,和j表示预测器变量的不同组(级别)y.所有yj是独立的。

  • α.j的总体均值j组(水平或治疗)。

  • ε.j是随机误差,独立且通常分布,均为零均值和常数方差,即,ε.j〜n(0,σ.2).

该模型也被称为意味着模型.该模型假设y是常数α.j加上误差分量ε.j.ANOVA有助于确定常量是否相同。

ANOVA测试所有组手段等于与替代假设相同的假设,即至少一个组与其他组不同。

H 0 α. 1 α. 2 ... α. k H 1 不是所有的群体都是平等的

ANOVA1(Y)测试矩阵中数据的列平均值的相等性y,其中每一列是不同的组,有相同数量的观察(即平衡设计)。Anova1(y,group)测试组平均值的相等性,在团体,表示向量或矩阵中的数据y.在这种情况下,每个组或列可以有不同数量的观察(即,不平衡设计)。

方差分析是基于所有样本总体是正态分布的假设。众所周知,它对适度违反这一假设是稳健的。您可以使用正态图直观地检查正态假设(normplot).或者,您可以使用统计学和机器学习工具箱™函数之一来检查正态性:Anderson-Darling测试(adt),卡方拟合优度检验(chi2gof)、贾克-贝拉测试(Jbtest.),或Lilliefors测试(lillietest).

准备数据进行单因素方差分析

您可以以向量或矩阵的形式提供示例数据。

  • 如果样本数据在向量中,y,则必须使用团体输入变量:Anova1(y,group)

    团体必须是数字向量、逻辑向量、类别向量、字符数组、字符串数组或字符向量的单元格数组,每个元素都有一个名称y.这anova1函数将y的相同值对应的值团体作为同一组的一部分。例如,

    当组有不同数量的元素时使用这种设计(不平衡方差分析)。

  • 如果样本数据处于矩阵,y,提供组信息是可选的。

    • 如果未指定输入变量团体,然后anova1处理每一列y作为一个单独的组,并评估各列的总体均值是否相等。例如,

      当每组有相同数量的元素时使用这种设计形式(平衡方差分析)。

    • 如果指定输入变量团体,然后输入每个元素团体中对应列的组名y.这anova1函数将具有相同组名的列视为同一组的一部分。例如,

anova1忽略任何一个价值y.同样,如果团体包含空的或值,anova1中对应的观察值忽略y.这anova1函数在忽略空或后,如果每组有相同数量的观察,则进行平衡方差分析价值观。否则,anova1执行不平衡的方差分析。

执行单向方差分析

这个例子展示了如何执行单因素方差分析来确定来自几个组的数据是否有一个共同的平均值。

加载并显示示例数据。

负载霍格霍格
豪格=6×524 14 11 7 19 15 7 9 7 24 21 12 7 4 19 27 17 13 7 15 33 14 12 12 10 23 16 18 18 20

这些数据来自Hogg和Ledolter(1987)对牛奶运输中细菌数量的研究。矩阵的列霍格代表不同的出货量。这些列是随机从每批货物中挑选的牛奶盒中的细菌计数。

测试一些货物的计数是否高于其他货物。默认情况下,anova1返回两个数字。一个是标准的方差分析表,另一个是分组数据的箱形图。

[p,tbl,stats] = Anova1(Hogg);

p
p = 1.1971e-04

p- 约0.0001的值表明细菌来自不同的货物的计数是不一样的。

您可以通过查看盒子图来获得一些图形保证。然而,凹口比较中位数,而不是手段。有关此显示的详细信息,请参阅箱线图

查看标准方差分析表。anova1将标准方差分析表保存为输出参数中的单元格数组TBL.

TBL.
台=4×6单元阵列列1到5 {'source'} {'ss'} {'df'} {'df'} {'m} {'f'} {'f'} {'choups'} {[803.0000] {[803.0000] {[403.0000] {[4]} {[200.7500]} {{'错误'} {[557.1667] {[25]} {0x0 double} {0x0 double} {'total'} {0x0 double} {0x0 double} {0x0 double} {{0x0 double}列6 {'prob> f'} {[1.1971e-04]} {0x0 double} {0x0 double}

保存F变量中的间隔值FSTAT.

函数=台{2、5}
函数= 9.0076

查看必要的统计数据,以进行组平均数的多个两两比较。anova1将这些统计信息保存在结构中统计数据

统计数据
统计=结构体字段:Gnames: [5x1 char] n: [6 666 6] source: 'anova1' means: [23.8333 13.3333 11.6667 9.1667 17.8333] df: 25 s: 4.7209

方差分析拒绝了所有组均值相等的无效假设,所以你可以使用多重比较来确定哪些组均值与其他组均值不同。要进行多次比较测试,请使用该函数多人节目,接受统计数据作为输入参数。在这个例子中,anova1拒绝无效假设,即所有四批货物的平均细菌计数彼此相等,即: H 0 μ. 1 μ. 2 μ. 3. μ. 4

执行多重比较测试,以确定在平均细菌计数方面,哪些发货与其他发货不同。

multcompare(统计)

ans =10×61.0000 2.0000 2.4953 10.5000 18.5047 0.0059 1.0000 3.0000 4.1619 12.1667 20.1714 0.0013 1.0000 4.0000 6.6619 14.6667 22.6714 0.0001 1.0000 5.0000 -2.0047 6.0000 14.0047 0.2119 2.0000 3.0000 -6.3381 1.6667 9.6714 0.9719 2.0000 4.0000 -3.8381 4.1667 12.1714 0.5544 2.0000 5.0000 -12.5047 -4.5000 3.5047 0.4806 3.0000 4.0000  -5.5047 2.5000 10.5047 0.8876 3.0000 5.0000 -14.1714 -6.1667 1.8381 1.8381 0.1905 4.0000 5.0000 -16.6714 -8.6667 -0.6619 0.0292

前两列显示彼此比较哪个组手段。例如,第一行比较了组1和2的手段。最后一列显示了p- 用于测试的值。这p- 0.0059,0.0013和0.0001表明,第一批货物中牛奶中的平均细菌与第二,第三和第四种货物的平均细菌不同。这p- 0.0292的值表明,来自第四批发货的牛奶中的平均细菌与来自第五个发货的不同。该过程未能拒绝其他组手段彼此不同的假设。

该图也说明了同样的结果。蓝色条表示第一组平均值的比较区间,与第二、第三、第四组平均值的比较区间不重叠,红色部分表示。第五组平均值的比较区间为灰色,与第一组平均值的比较区间重叠。因此,第一组和第五组的组均值彼此之间没有显著差异。

数学细节

对组内差异的方差分析测试意味着将数据的总变异分为两个部分:

  • 组均值与总均值的变异,即: y ¯ j y ¯ .. (组间变异),其中 y ¯ j 是组的样本均值j, y ¯ .. 为总体样本均值。

  • 每一组的观察值与他们的组平均值估计值的差异, y j y ¯ j (组内变异)。

也就是说,方差分析将总平方和(SST)分解为组间效应平方和(SSR)和误差平方和(SSE)。

j y j y ¯ .. 2 年代 年代 T j n j y ¯ j y ¯ .. 2 年代 年代 R + j y j y ¯ j 2 年代 年代 E

在哪里nj样品尺寸是多少jth集团,j= 1, 2,…k

然后用方差分析比较组间差异和组内差异。如果组内变异与组间变异之比显著高,则可以得出组间平均数显著不同的结论。你可以用一个测试统计量来衡量F分布(k- 1,N- - - - - -k)自由度:

F 年代 年代 R k 1 年代 年代 E N k 年代 R 年代 E F k 1 N k

在哪里MSR.是均方处理,MSE为均方误差,k是组数,和N为观测总数。如果p价值的F-统计量小于显著性水平,则检验拒绝所有组均值相等的原假设,并得出组均值中至少有一个与其他组均值不同的结论。最常见的显著性水平为0.05和0.01。

方差分析表

方差分析表捕获了模型的可变性的来源,F-检验此变异的显著性的统计量,以及p- 决定这种变异性的重要性。这p返回的值anova1取决于随机扰动的假设ε.j在模型方程中。为p-值要正确,这些扰动必须是独立的、正态分布的,并且具有常数方差。标准的方差分析表是这样的:

anova1将标准ANOVA表作为具有六列的单元数组返回。

柱子 定义
来源 可变性的来源。
党卫军 每个源的平方和。
df 与每个源相关的自由度。假设N是观察总数和k是群体的数量。然后,N- - - - - -k为组内自由度(错误),k- 1为组间自由度(),N- 1为总自由度:N- 1 =(N- - - - - -k)+(k- 1)。
女士 每个来源的平均方块,这是比率SS / df
F F- 是均线的比例。
Prob> F. p-value,也就是F- 静态可以比计算的测试统计值大。anova1从CDF推导出这个概率F分布。

方差分析表的行显示了数据的可变性,除以来源。

行(来源) 定义
变异性由于组间的差异意味着(变异性)之间组)
错误 变异性由于每组数据与组均值之间的差异(变异性)组)
全部的 完全变化

参考

吴昌芳,M. Hamada。实验:规划、分析和参数设计优化2000年。

Neter, J., M. H. Kutner, C. J. Nachtsheim, W. Wasserman.第四版。应用线性统计模型.欧文出版社,1996年。

另请参阅

||

相关的话题