主要内容

方差分析

线性回归模型的方差分析

描述

例子

资源描述=方差分析(mdl)返回一个表与组件方差分析统计数据。

例子

资源描述=方差分析(mdl,anovatype)返回指定类型的方差分析统计数据anovatype。例如,指定anovatype作为“组件”(默认)返回一个表组件方差分析统计数据,或指定anovatype作为“摘要”返回一个表总结方差分析统计数据。

资源描述=方差分析(mdl“组件”,sstype)方差分析统计计算组件使用指定类型的平方和。

例子

全部折叠

创建一个组件从一个线性回归模型的方差分析表医院数据集。

加载医院数据集和创建一个模型血压随着年龄和性别的函数。

负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),“VariableNames”,{“年龄”,“性”,“血压”});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性+ ^ 2岁”)
mdl =线性回归模型:血压~ 1 +年龄+性别+ ^ 2岁估计系数:估计SE tStat pValue _____说_____岁(拦截)63.942 19.194 3.3314 0.0012275 0.90673 1.0442 0.86837 0.38736 Sex_Male ^ 2岁-0.011275 0.013853 -0.81389 0.031643 3.0019 1.3765 2.1808 0.41772的观测数量:100年,错误自由度:96根均方误差:6.83平方:0.0577,调整平方:0.0283 f统计量与常数模型:1.96,p = 0.125

创建一个模型的方差分析表。

台=方差分析(mdl)
台=4×5表看上去SumSq DF MeanSq F pValue __得一样_________ ________年龄18.705 - 1 18.705 0.40055 0.52831性别222.09 - 1 222.09 4.7558 0.031643 30.934 ^ 2岁1 30.934 0.66242 0.41772 4483.1 96 46.699错误

每个词的表显示下列列除常数(拦截)项:

  • SumSq——平方和用这个术语来解释。

  • DF——自由度。在这个例子中,DF模型中的每一项和1吗n- - - - - -p误差项的n是观察和的数量吗p是系数的数量(包括拦截)的模型。例如,DF这个模型的误差项是100 - 4 = 96。如果任何变量在模型中是类别变量,DF创建的指标变量的数量为变量的类别(类别数- 1)。

  • MeanSq——定义为均方MeanSq = SumSq / DF。例如,均方误差项的均方误差(MSE)是4.4831 e + 03/96 = 46.6991。

  • F- - - - - -F统计值来测试相应的系数为零的零假设,计算F = MeanSq / MSE,在那里均方误差均方误差。零假设是正确时,F统计的F分布。分子的自由度是DF值对应的项,分母的自由度n- - - - - -p。在这个例子中,每个F统计之前 F ( 1 , 9 6 ) 分布。

  • pValue- - - - - -p价值的F统计值。例如,p值为年龄是0.5283,暗示年龄不是重要的在5%的显著性水平给定模型中的其他条款。

创建一个概要的线性回归模型方差分析表医院数据集。

加载医院数据集和创建一个模型血压随着年龄和性别的函数。

负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),“VariableNames”,{“年龄”,“性”,“血压”});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性+ ^ 2岁”)
mdl =线性回归模型:血压~ 1 +年龄+性别+ ^ 2岁估计系数:估计SE tStat pValue _____说_____岁(拦截)63.942 19.194 3.3314 0.0012275 0.90673 1.0442 0.86837 0.38736 Sex_Male ^ 2岁-0.011275 0.013853 -0.81389 0.031643 3.0019 1.3765 2.1808 0.41772的观测数量:100年,错误自由度:96根均方误差:6.83平方:0.0577,调整平方:0.0283 f统计量与常数模型:1.96,p = 0.125

创建一个概要模型的方差分析表。

台=方差分析(mdl,“摘要”)
台=7×5表看上去SumSq DF MeanSq F pValue __得一样_________ ________ 99 4757.8 91.577 1.961 0.12501 274.73 48.059模型3。线性243.8 - 2 121.9 2.6103 0.078726。非线性30.934 96 46.699 4483.1 30.934 0.66242 0.41772残留。缺乏适合1483.1 38.028 0.72253 0.85732。52.632纯错误3000 57

表显示测试组:,模型,剩余

  • 这一行显示了总平方和(SumSq),自由度(DF),和均方误差(MeanSq)。请注意,MeanSq = SumSq / DF

  • 模型——这一行包括SumSq,DF,MeanSq,F统计值(F),p值(pValue)。因为这个模型包含一个非线性项(^ 2岁),方差分析分区平方和(SumSq)模型分为两部分:SumSq解释为线性条件(年龄),SumSq解释为非线性项(^ 2岁)。相应的F测试统计值是线性项和非线性项的重要性作为单独的组。由非线性组^ 2岁词,所以它有相同的p价值的^ 2岁因素方差分析表

  • 剩余——这一行包括SumSq,DF,MeanSq,F,pValue。因为数据集包括复制,方差分析分区剩余SumSq复制的部分(纯粹的错误)和(缺乏合适的)。为了测试缺乏配合,方差分析计算F统计值,通过比较模型残差模范自由复制方差估计计算。的F统计值显示,没有证据的缺乏。

适合包含分类预测的线性回归模型。重新排序的类别分类预测控制模型的参考电平。然后,用方差分析测试类别变量的意义。

模型的分类预测

加载carsmall数据集和创建一个线性回归模型英里/加仑的函数Model_Year。把数值向量Model_Year作为分类变量,确定预测使用“CategoricalVars”名称-值对的论点。

负载carsmallmdl = fitlm (Model_Year MPG,“CategoricalVars”,1“VarNames”,{“Model_Year”,“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ________交__________(拦截)17.69 1.0328 17.127 3.2371 e-30 Model_Year_76 Model_Year_82 0.0069402 3.8839 1.4059 2.7625 14.02 1.4369 9.7571 8.2164 e-16数量的观察:94年,错误自由度:91根均方误差:5.56平方:0.531,调整平方:0.521 f统计量与常数模型:51.6,p = 1.07 e15汽油

在显示模型公式,英里/加仑~ 1 + Model_Year,对应于

英里/加仑 = β 0 + β 1 Ι 一年 = 76年 + β 2 Ι 一年 = 82年 + ϵ ,

在哪里 Ι 一年 = 76年 Ι 一年 = 82年 指标变量的值是一个如果的价值Model_Year分别是76年和82年。的Model_Year变量包括三个不同的值,您可以检查使用独特的函数。

独特的(Model_Year)
ans =3×170 76 82

fitlm选择最小的值Model_Year作为参考级别(“70”)并创建两个指标变量 Ι 一年 = 76年 Ι 一年 = 82年 。模型只包含两个指标变量,因为设计矩阵成为等级不足如果模型包括三个指标变量(每个级别)和截距项。

模型和完整的指标变量

你可以解释的模型公式mdl作为一个拥有三个指标变量的模型没有拦截的术语:

y = β 0 Ι x 1 = 70年 + ( β 0 + β 1 ) Ι x 1 = 76年 + ( β 0 + β 2 ) Ι x 2 = 82年 + ϵ

或者,您可以创建一个拥有三个指标变量的模型没有截距项通过手动创建指标变量和指定模型公式。

temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year (: 1);Model_Year_76 = temp_Year (:, 2);Model_Year_82 = temp_Year (: 3);台=表(Model_Year_70 Model_Year_76、Model_Year_82 MPG);mdl = fitlm(资源描述,“MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1 ')
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE tStat pValue ________ ________ _____ Model_Year_70 17.69 1.0328 17.127 3.2371 e-30 Model_Year_76 21.574 0.95387 22.617 4.0156 e-39 Model_Year_82 31.71 0.99896 31.743 5.2234 e-51数量的观察:94年,错误自由度:91根均方误差:5.56

选择参考水平模型

你可以选择一个参考水平通过修改订单在一个分类变量的类别。首先,创建一个分类变量一年

年=分类(Model_Year);

检查使用的类别类别函数。

类别(年)
ans =3 x1细胞””{70}{76}{82 '}

如果你使用一年作为一个预测变量fitlm选择第一类“70”作为参考水平。重新排序一年通过使用reordercats函数。

Year_reordered = reordercats(一年,{“76”,“70”,“82”});类别(Year_reordered)
ans =3 x1细胞””{76}{70}{82 '}

第一类的Year_reordered“76”。创建一个线性回归模型英里/加仑的函数Year_reordered

mdl2 = fitlm (Year_reordered MPG,“VarNames”,{“Model_Year”,“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ______和_____(拦截)21.574 0.95387 22.617 4.0156 e-39 Model_Year_70 Model_Year_82 0.0069402 -3.8839 1.4059 -2.7625 10.136 1.3812 7.3385 8.7634 e-11数量的观察:94年,错误自由度:91根均方误差:5.56平方:0.531,调整平方:0.521 f统计量与常数模型:51.6,p = 1.07 e15汽油

mdl2使用“76”作为参考水平,包括两个指标变量 Ι 一年 = 70年 Ι 一年 = 82年

评估分类预测

该模型显示mdl2包括一个p每一项的值来测试是否相应的系数等于零。每一个p值检查每一个指标变量。检查类别变量Model_Year作为一个群体的指标变量,使用方差分析。使用“组件”返回一个组件(默认)选项为每个变量方差分析表,包括方差分析统计模型中的常数项除外。

方差分析(mdl2“组件”)
ans =2×5表看上去SumSq DF MeanSq F pValue __得一样_____ __________ Model_Year 3190.1 - 2 2815.2 91 30.936 1595.1 51.56 1.0694 e15汽油错误

该组件包括方差分析表p价值的Model_Year变量,这是小于p值的指标变量。

输入参数

全部折叠

线性回归模型对象,指定为一个LinearModel创建的对象使用fitlmstepwiselm,或者一个CompactLinearModel创建的对象使用紧凑的

方差分析类型,指定这些值之一:

  • “组件”- - - - - -方差分析返回的表资源描述每个变量的方差分析统计模型中除常数项。

  • “摘要”- - - - - -方差分析返回的表资源描述摘要为分组变量方差分析统计和模型作为一个整体。

详情,请参阅资源描述输出参数描述。

平方和为每个术语类型,指定为这个表中的值之一。

价值 描述
1 1型平方和,减少残差平方和通过添加这个词适合已经包括前面的条款
2 类型2平方和,减少残差平方和通过添加术语模型包含所有其他条款
3 3型平方和,减少残差平方和通过添加术语模型包含所有其他条款,但其影响约束遵守通常的“σ限制”,使有价值的模型
“h” 层次模型- 2型类似,但使用连续和分类因素来确定术语的层次结构

的平方和词是由两个模型进行比较。但没有交互模型包含的主要影响,的价值sstype影响计算不平衡数据。

假设你是拟合模型与两个因素及其相互作用,和条款的顺序出现一个,B,AB。让R(·)代表模型的残差平方和。所以,R(一个,B,AB)是整个模型残差平方和配件,R(一个)是残差平方和的主要影响一个只有,R(1)拟合残差平方和均值。三个平方和类型如下:

术语 1型平方和 2型平方和 类型3平方和

一个

R(1)-R(一个)

R(B)- - -R(一个,B)

R(B,AB)- - -R(一个,B,AB)

B

R(一个)- - -R(一个,B)

R(一个)- - -R(一个,B)

R(一个,AB)- - -R(一个,B,AB)

AB

R(一个,B)- - -R(一个,B,AB)

R(一个,B)- - -R(一个,B,AB)

R(一个,B)- - -R(一个,B,AB)

模型类型3平方和σ限制。这意味着,例如,在拟合R(B,AB),数组AB影响限制金额为0一个为每个值B,在B为每个值一个

型3平方和:

  • 如果mdl是一个CompactLinearModel对象的回归模型是无,方差分析返回一个错误。

  • 如果mdl是一个LinearModel对象的回归模型是无,方差分析不菲的模型使用影响编码时需要计算一个类型3平方和。

  • 如果回归模型mdl是分层的,方差分析计算结果没有改装的模型。

sstype只适用于如果anovatype“组件”

输出参数

全部折叠

方差分析总结表的统计数据,作为一个表返回。

的内容资源描述依赖于方差分析中指定的类型anovatype

  • 如果anovatype“组件”,然后资源描述包含每个变量的方差分析统计模型中除常数(拦截)。表为每个变量包括这些列:

    描述
    SumSq

    平方和用这个术语来解释,根据计算sstype

    DF

    自由度

    • DF数值变量的是1。

    • DF分类变量的数量指标变量创建类别(类别数- 1),请注意资源描述为每个类别变量而不是包含一行一行的每一个指示符变量在模型中显示。使用方差分析测试指标变量的一个分类变量作为一个群体。

    • DF一个误差项n- - - - - -p,在那里n是观察和的数量吗p是在模型中系数的数量。

    MeanSq

    均方,所定义的MeanSq=SumSq/DF

    MeanSq误差项的均方误差(MSE)。

    F

    F统计值来测试相应的系数为零的零假设,计算F=MeanSq/均方误差

    零假设是正确时,F统计的F分布。分子的自由度是DF值对应的项,分母的自由度n- - - - - -p

    pValue

    p价值的F统计值

    例如,看到的因素方差分析表

  • 如果anovatype“摘要”,然后资源描述为每一行包含汇总数据分组的术语。表包含了相同的列“组件”和这些行:

    描述

    总统计

    • SumSq——总平方和,响应的偏差值的平方之和绕着它的意思

    • DF——自由度之和模型剩余

    模型

    统计数据模型作为一个整体

    • SumSq——模型平方和,平方偏差之和的拟合值响应的意思。

    • FpValue——这些价值观提供检验模型是否适合明显比作为一个整体退化模型只有一个常数项组成。

    如果mdl只包含线性项,方差分析不分解模型线性非线性

    线性

    统计线性条件

    • SumSq——平方和线性项,模型之间的差异平方和和非线性项的平方和。

    • FpValue——这些价值观提供检验模型是否只有线性条件适合比退化模型只有一个常数项组成。方差分析采用均方误差是基于完整的模型来计算F值,因此F获得的价值下降非线性项和重复测试不一样的价值这一行。

    非线性

    非线性项的统计数据

    • SumSq——平方和非线性(高阶或交互)而言,这是获得的残差平方和的增加只保留线性项和放弃所有非线性项。

    • FpValue——这些价值观提供一个测试是否完整的模型符合明显好于一个较小的模型只包含线性项。

    剩余

    统计数据的残差

    • SumSq残差平方和,平方剩余价值的总和

    • MeanSq均方误差,用于计算F统计值模型,线性,非线性

    如果mdl是一个完整的LinearModel对象和样本数据包含复制(多个观测共享相同的预测值)方差分析剩余平方和分解成一个复制观察平方和(缺乏合适的)和剩余平方和(纯粹的错误)。

    缺乏合适的

    Lack-of-fit统计

    • SumSq——平方和由于缺乏健康,即残差平方和之间的差异和复制平方和。

    • FpValue- - -F统计值是lack-of-fit的比率MeanSq纯粹的错误MeanSq。偏见的比率提供了一个测试通过测量残差的变化是否超过复制的变化。一个低p值意味着向模型添加附加的条款可以提高健康。

    纯粹的错误

    纯粹的统计数据错误

    • SumSq——复制平方和,得到发现点的设置相同的预测价值,计算偏差的平方和平均在每一组中,周围和池的计算值

    • MeanSq——模范自由纯误差方差的估计响应

    例如,看到的摘要方差分析表

选择功能

更完整的方差分析统计数据是可用的anova1,anova2,anovan功能。

扩展功能

版本历史

介绍了R2012a