主要内容

方差分析

线性回归模型的方差分析

描述

例子

TBL.= Anova(mdl返回包含组件方差分析统计信息的表。

例子

TBL.= Anova(mdlAnovatype.返回指定类型的ANOVA统计信息Anovatype..例如,指定Anovatype.作为“组件”(默认)返回包含组件方差分析统计信息的表,或指定Anovatype.作为'概括'返回一个包含摘要方差分析统计信息的表。

TBL.= Anova(mdl“组件”,sstype.使用指定类型的平方和计算分量方差分析统计。

例子

全部折叠

从一个线性回归模型创建一个成分方差分析表医院数据集。

加载医院数据集和创建一个血压模型作为年龄和性别的函数。

负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),...“VariableNames”,{“年龄”“性”'血压'});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性别+年龄^2”
mdl =线性回归模型:血压~ 1 +年龄+性别+年龄^2估计系数:估计值SE tStat pValue _________ ________ ________ _________ (Intercept) 63.942 19.194 3.3314 0.0012275 Age 0.90673 1.0442 0.86837 0.38736 Sex_Male 3.0019 1.3765 2.1808 0.031643 Age^2 -0.011275 0.013853 -0.81389 0.41772100,误差自由度:96均方根误差:6.83 r平方:0.0577,调整r平方:0.0283 F-statistic vs. constant model: 1.96, p-value = 0.125

创建模型的ANOVA表。

TBL = ANOVA(MDL)
台=4×5表SumSq DF MeanSq F pValue ________ ______ _______ ________年龄18.705 1 18.705 0.40055 0.52831性别222.09 1 222.09 4.7558 0.031643年龄^2 30.934 1 30.934 0.66242 0.41772错误4483.1 96 46.699

除常数(截距)术语之外,该表显示了每个术语的列:

  • SumSq-用术语解释的平方和。

  • DF-自由度。在这个例子中,DF模型和中每一项是1吗n- - - - - -p对于误差项,其中n观察的次数是多少p为模型中系数(包括截距)的个数。例如,DF这个模型的误差项是100 - 4 = 96。如果模型中的任何变量是分类变量,则DF对于该变量是为其类别创建的指示变量的数量(类别 - 1)。

  • MeanSq均方,定义为均衡Q = SUMSQ / DF.例如,误差项的均方误差(MSE)是4.4831e+03/96 = 46.6991。

  • F- - - - - -F-统计值来检验相应系数为零的零假设,由F = MeanSq / MSE,在那里MSE是平均平方误差。当零假设成立时F统计的F分布。分子的自由度是DF对应项的值,分母自由度为n- - - - - -p。在这个例子中,每一个F统计之前 F 1 9 6 分布。

  • pValue- - - - - -p价值的F统计值。例如,p值为年龄是0.5283吗年龄在5%显著性水平下,模型中的其他项不显著。

从线性回归模型创建摘要ANOVA表医院数据集。

加载医院数据集和创建一个血压模型作为年龄和性别的函数。

负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),...“VariableNames”,{“年龄”“性”'血压'});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性别+年龄^2”
mdl =线性回归模型:血压~ 1 +年龄+性别+年龄^2估计系数:估计值SE tStat pValue _________ ________ ________ _________ (Intercept) 63.942 19.194 3.3314 0.0012275 Age 0.90673 1.0442 0.86837 0.38736 Sex_Male 3.0019 1.3765 2.1808 0.031643 Age^2 -0.011275 0.013853 -0.81389 0.41772100,误差自由度:96均方根误差:6.83 r平方:0.0577,调整r平方:0.0283 F-statistic vs. constant model: 1.96, p-value = 0.125

创建模型的汇总方差分析表。

TBL = ANOVA(MDL,'概括'
台=7×5表SumSq DF MeanSq F pValue  ______ __ ______ _______ ________ 总99 4757.8 91.577 1.961 0.12501 274.73 48.059模型3。线性243.8 2 121.9 2.6103 0.078726。非线性30.934 1 30.934 0.66242 0.41772残差4483.1 96 46.699。缺乏健康1483.1 39 38.028 0.72253 0.5732。纯错误3000 57 52.632

该表显示术语组的测试:全部的模型,剩余

  • 全部的- 此行显示总线总和(SumSq)、自由度(DF),均方误差(MeanSq).请注意,均衡Q = SUMSQ / DF

  • 模型-这一行包括SumSqDFMeanSqF统计值(F),p值(pValue).因为该模型包含一个非线性项(年龄^ 2.),方差分析将平方和(SumSq)模型分为两部分:SumSq用线性术语解释(年龄) 和SumSq由非线性项解释(年龄^ 2.).相应的F- 作为单独组的线性术语和非线性项的重要性,用于测试线性术语的重要性。非线性组包括年龄^ 2.只有项,所以它是一样的p- 作为value年龄^ 2.因素方差分析表

  • 剩余-这一行包括SumSqDFMeanSqF,pValue.因为数据集包括复制,方差分析分区剩余SumSq为复制部分(纯粹的错误)及其他(缺乏合适的).为了检验身体的不适应方差分析计算F-统计值,通过比较模型残差和在重复计算上的无模型方差估计。的F-统计值显示没有缺乏匹配的证据。

适合包含分类预测器的线性回归模型。重新排序分类预测器的类别以控制模型中的参考级别。然后,使用方差分析测试分类变量的重要性。

分类预测器的模型

加载carsmall数据集并建立线性回归模型英里/加仑作为…的函数model_year..治疗数字矢量model_year.作为一个分类变量,确定预测器使用'pationalvars'名称-值对的论点。

负载carsmallmdl = fitlm (Model_Year MPG,'pationalvars',1,“VarNames”,{'model_year'“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ ______ ______ __________ (Intercept) 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,误差自由度:91均方根误差:5.56 R-squared: 0.531, Adjusted R-squared: 0.521 F-statistic vs. constant model: 51.6, p-value = 1.07e-15

显示的模型公式,MPG ~ 1 + Model_Year,对应于

英里/加仑 β 0 + β 1 ι 一年 76 + β 2 ι 一年 82 + ε.

在哪里 ι 一年 76 ι 一年 82 值为1的指示器变量是否为model_year.分别是76和82。的model_year.变量包含三个不同的值,可以使用独特的函数。

独特的(Model_Year)
ans =3×170 76 82

fitlm选择中最小的值model_year.作为参考水平(“70”),并创建两个指示器变量 ι 一年 76 ι 一年 82 .该模型只包含两个指标变量,因为如果模型包含三个指标变量(每个水平一个)和一个截距项,设计矩阵就会变得秩不足。

全指标变量模型

你可以解释的模型公式mdl作为一个没有截距术语的三个指示变量的模型:

y β 0 ι x 1 70 + β 0 + β 1 ι x 1 76 + β 0 + β 2 ι x 2 82 + ε.

或者,您可以通过手工创建指标变量并指定模型公式来创建一个包含三个指标变量且没有截距项的模型。

temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year (: 1);Model_Year_76 = temp_Year (:, 2);Model_Year_82 = temp_Year (: 3);台=表(Model_Year_70 Model_Year_76、Model_Year_82 MPG);mdl = fitlm(资源描述,'MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1'
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51观测值:94、误差自由度:91均方根误差:5.56

在模型中选择参考级别

您可以通过修改类别变量中的类别顺序来选择引用级别。首先,创建一个分类变量一年

年=分类(Model_Year);

通过使用使用的类别的顺序类别函数。

类别(年)
ans =3 x1细胞””{70}{76}{82 '}

如果你使用一年作为一个预测变量fitlm选择第一个类别“70”作为参考水平。重新排序一年通过使用reordercats函数。

年份= reordercats(年,{'76'“70”“82”});类别(Year_reordered)
ans =3 x1细胞””{76}{70}{82 '}

第一类Year_reordered'76'.创建的线性回归模型英里/加仑作为…的函数Year_reordered

mdl2 = fitlm(yor_reordered,mpg,“VarNames”,{'model_year'“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ _______ _______ __________ (Intercept) 21.574 0.95387 22.617 4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11观测数:94,误差自由度:F-statistic vs. constant model: 51.6, p-value = 1.07e-15

mdl2用途'76'作为参考水平,包括两个指标变量 ι 一年 70 ι 一年 82

评估分类预测

的模型展示mdl2包括一个p-每一项的值,以检验对应的系数是否等于零。每一个p-value检查每个指示器变量。检查分类变量model_year.作为一组指标变量,使用方差分析.使用“组件”(默认)选项要返回组件ANOVA表,该表包含模型中的每个变量的ANOVA统计信息,但常量项除外。

方差分析(mdl2“组件”
ans =.2×5表SumSq DF MeanSq F pValue ________ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936

成分方差分析表包括p价值的model_year.变量,它小于p- 指示器变量的值。

输入参数

全部折叠

线性回归模型对象,指定为alinearmodel.使用fitlm步骤行程,或者一个CompactLinearModel使用袖珍的

方差分析类型,指定为以下值之一:

  • “组件”- - - - - -方差分析返回表格TBL.对模型中除常数项外的每个变量进行方差分析统计。

  • '概括'- - - - - -方差分析返回表格TBL.使用摘要ANOVA统计分组变量和整个模型。

具体操作请参见TBL.输出参数描述。

每个项的平方和类型,指定为该表中的一个值。

价值 描述
1 类型1平方和-通过将该项添加到已经包含前面项的拟合中而得到的残差平方和的减少
2 类型2平方和-通过将该项添加到包含所有其他项的模型中得到的残差平方和的减少
3. 类型3平方和-通过将该项添加到包含所有其他项的模型中,但其影响受限于使模型可估计的通常“西格玛限制”而得到的残差平方和的减少
“h” 层次模型-类似于第2类,但同时使用连续和分类因素来确定术语的层次

通过比较两种模型来确定任何术语的平方和。对于包含主要效果但没有互动的模型,值sstype.只影响对不平衡数据的计算。

假设您正在拟合一个包含两个因素及其相互作用的模型,术语按顺序出现一个BAB.让R(·)表示模型的残差平方和。所以,R一个BAB)为拟合整个模型的残差平方和,R一个)为拟合主效应的残差平方和一个只有,R(1)仅为拟合均值的残差平方和。三种平方和类型如下:

术语 类型1平方和 类型2平方和 类型3平方和

一个

R(1) -R一个

RB)- - -R一个B

RBAB)- - -R一个BAB

B

R一个)- - -R一个B

R一个)- - -R一个B

R一个AB)- - -R一个BAB

AB

R一个B)- - -R一个BAB

R一个B)- - -R一个BAB

R一个B)- - -R一个BAB

3型方块的模型具有施加的SIGMA限制。例如,这意味着在拟合中RBAB的数组AB效果被限制为总和为0一个对于每个值B,并结束了B对于每个值一个

对于第3类平方和:

  • 如果mdl是一个CompactLinearModel对象和回归模型是非编制的,方差分析返回一个错误。

  • 如果mdl是一个linearmodel.对象和回归模型是非编制的,方差分析当需要计算类型3的平方和时,使用效果编码来修改模型。

  • 如果回归模型在mdl是等级的,方差分析计算结果而不重新修正模型。

sstype.只适用于如果Anovatype.“组件”

输出参数

全部折叠

方差分析汇总统计表,作为表格返回。

的内容TBL.的方差分析类型Anovatype.

  • 如果Anovatype.“组件”,然后TBL.包含模型中除常数(截距)项外的每个变量的方差分析统计量。该表包括每个变量的以下列:

    柱子 描述
    SumSq

    由术语解释的平方和,计算依赖于sstype.

    DF

    自由度

    • DF数字变量为1。

    • DF类别变量的个数是为类别创建的指标变量的个数(类别个数- 1)TBL.为每个分类变量包含一行,而不是像在模型显示中为每个指标变量包含一行。使用方差分析将分类变量作为一组指标变量进行检验。

    • DF误差项的n- - - - - -p,在那里n观察的次数是多少p是模型中的系数数。

    MeanSq

    均方,定义为MeanSqSumSq/DF

    MeanSq误差项为均方误差(MSE)。

    F

    F-统计值来检验相应系数为零的零假设,由FMeanSq/MSE

    当零假设成立时F统计的F分布。分子的自由度是DF对应项的值,分母自由度为n- - - - - -p

    pValue

    p价值的F统计值

    例如,请参见因素方差分析表

  • 如果Anovatype.'概括',然后TBL.包含每行的分组术语的摘要统计信息。该表包含与相同的列“组件”和这些行:

    描述
    全部的

    总统计数据

    • SumSq-总平方和,即响应在其均值附近的方差平方和

    • DF自由度的和模型剩余

    模型

    整个模型的统计

    • SumSq-模型平方和,即拟合值对响应均值的方差平方和。

    • FpValue- 这些值提供了模型是否总体拟合的测试,而不是仅由恒定术语组成的简并模型。

    如果mdl只包括线性项方差分析不分解模型线性非线性

    线性

    线性项的统计

    • SumSq-线性项的平方和,即模型平方和与非线性项平方和之差。

    • FpValue- 这些值提供了只有线性术语的模型的测试比仅由恒定术语组成的简并模型更好。方差分析使用基于完整模型的平均平方错误来计算此F值,因此F-删除非线性项并重复测试得到的值与该行中的值不相同。

    非线性

    非线性条款的统计数据

    • SumSq-非线性(高阶或相互作用)项的平方和,即仅保留线性项而去掉所有非线性项得到的残差平方和的增加。

    • FpValue- 这些值提供了完整模型是否比仅由线性术语组成的较小模型明显更好的测试。

    剩余

    统计数据的残差

    • SumSq- 残余平方和,这是平方残差值的总和

    • MeanSq- 平均平方误差,用于计算F统计值模型线性,非线性

    如果mdl是一个完整的linearmodel.对象和样本数据包含重复(共享相同预测值的多个观察值),则方差分析将残差平方和分解为复制观测值的平方和(缺乏合适的)和其余平方和(纯粹的错误).

    缺乏合适的

    Lack-of-fit统计

    • SumSq-缺乏拟合平方和,即残差平方和与复制平方和之差。

    • FpValue- - -F-统计值为缺配率MeanSq纯粹的错误MeanSq.该比值通过测量残差的变异是否大于复制的变异来检验偏差。一个低p-Value意味着向模型添加其他术语可以改善拟合。

    纯粹的错误

    纯错误的统计数据

    • SumSq-复制平方和,通过寻找具有相同预测值的点集合,计算每个集合内均值周围的方差平方和,并将计算值池化得到

    • MeanSq-响应的无模型纯误差方差估计

    例如,请参见摘要方差分析表

选择功能

更完整的ANOVA统计数据可用anova1anova2,anovan功能。

扩展功能

介绍了R2012a