线性回归模型的方差分析
从一个线性回归模型创建一个成分方差分析表医院
数据集。
加载医院
数据集和创建一个血压模型作为年龄和性别的函数。
负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),...“VariableNames”,{“年龄”,“性”,'血压'});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性别+年龄^2”)
mdl =线性回归模型:血压~ 1 +年龄+性别+年龄^2估计系数:估计值SE tStat pValue _________ ________ ________ _________ (Intercept) 63.942 19.194 3.3314 0.0012275 Age 0.90673 1.0442 0.86837 0.38736 Sex_Male 3.0019 1.3765 2.1808 0.031643 Age^2 -0.011275 0.013853 -0.81389 0.41772100,误差自由度:96均方根误差:6.83 r平方:0.0577,调整r平方:0.0283 F-statistic vs. constant model: 1.96, p-value = 0.125
创建模型的ANOVA表。
TBL = ANOVA(MDL)
台=4×5表SumSq DF MeanSq F pValue ________ ______ _______ ________年龄18.705 1 18.705 0.40055 0.52831性别222.09 1 222.09 4.7558 0.031643年龄^2 30.934 1 30.934 0.66242 0.41772错误4483.1 96 46.699
除常数(截距)术语之外,该表显示了每个术语的列:
SumSq
-用术语解释的平方和。
DF
-自由度。在这个例子中,DF
模型和中每一项是1吗n- - - - - -p对于误差项,其中n观察的次数是多少p为模型中系数(包括截距)的个数。例如,DF
这个模型的误差项是100 - 4 = 96。如果模型中的任何变量是分类变量,则DF
对于该变量是为其类别创建的指示变量的数量(类别 - 1)。
MeanSq
均方,定义为均衡Q = SUMSQ / DF
.例如,误差项的均方误差(MSE)是4.4831e+03/96 = 46.6991。
F
- - - - - -F-统计值来检验相应系数为零的零假设,由F = MeanSq / MSE
,在那里MSE
是平均平方误差。当零假设成立时F统计的F分布。分子的自由度是DF
对应项的值,分母自由度为n- - - - - -p。在这个例子中,每一个F统计之前
分布。
pValue
- - - - - -p价值的F统计值。例如,p值为年龄
是0.5283吗年龄
在5%显著性水平下,模型中的其他项不显著。
从线性回归模型创建摘要ANOVA表医院
数据集。
加载医院
数据集和创建一个血压模型作为年龄和性别的函数。
负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),...“VariableNames”,{“年龄”,“性”,'血压'});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性别+年龄^2”)
mdl =线性回归模型:血压~ 1 +年龄+性别+年龄^2估计系数:估计值SE tStat pValue _________ ________ ________ _________ (Intercept) 63.942 19.194 3.3314 0.0012275 Age 0.90673 1.0442 0.86837 0.38736 Sex_Male 3.0019 1.3765 2.1808 0.031643 Age^2 -0.011275 0.013853 -0.81389 0.41772100,误差自由度:96均方根误差:6.83 r平方:0.0577,调整r平方:0.0283 F-statistic vs. constant model: 1.96, p-value = 0.125
创建模型的汇总方差分析表。
TBL = ANOVA(MDL,'概括')
台=7×5表SumSq DF MeanSq F pValue ______ __ ______ _______ ________ 总99 4757.8 91.577 1.961 0.12501 274.73 48.059模型3。线性243.8 2 121.9 2.6103 0.078726。非线性30.934 1 30.934 0.66242 0.41772残差4483.1 96 46.699。缺乏健康1483.1 39 38.028 0.72253 0.5732。纯错误3000 57 52.632
该表显示术语组的测试:全部的
,模型
,剩余
.
全部的
- 此行显示总线总和(SumSq
)、自由度(DF
),均方误差(MeanSq
).请注意,均衡Q = SUMSQ / DF
.
模型
-这一行包括SumSq
,DF
,MeanSq
,F统计值(F
),p值(pValue
).因为该模型包含一个非线性项(年龄^ 2.
),方差分析
将平方和(SumSq
)模型
分为两部分:SumSq
用线性术语解释(年龄
和性
) 和SumSq
由非线性项解释(年龄^ 2.
).相应的F- 作为单独组的线性术语和非线性项的重要性,用于测试线性术语的重要性。非线性组包括年龄^ 2.
只有项,所以它是一样的p- 作为value年龄^ 2.
项因素方差分析表.
剩余
-这一行包括SumSq
,DF
,MeanSq
,F
,pValue
.因为数据集包括复制,方差分析
分区剩余SumSq
为复制部分(纯粹的错误
)及其他(缺乏合适的
).为了检验身体的不适应方差分析
计算F-统计值,通过比较模型残差和在重复计算上的无模型方差估计。的F-统计值显示没有缺乏匹配的证据。
适合包含分类预测器的线性回归模型。重新排序分类预测器的类别以控制模型中的参考级别。然后,使用方差分析
测试分类变量的重要性。
分类预测器的模型
加载carsmall
数据集并建立线性回归模型英里/加仑
作为…的函数model_year.
.治疗数字矢量model_year.
作为一个分类变量,确定预测器使用'pationalvars'
名称-值对的论点。
负载carsmallmdl = fitlm (Model_Year MPG,'pationalvars',1,“VarNames”,{'model_year',“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ ______ ______ __________ (Intercept) 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 3.8839 1.4059 2.7625 0.0069402 Model_Year_82 14.02 1.4369 9.7571 8.2164e-16观测数:94,误差自由度:91均方根误差:5.56 R-squared: 0.531, Adjusted R-squared: 0.521 F-statistic vs. constant model: 51.6, p-value = 1.07e-15
显示的模型公式,MPG ~ 1 + Model_Year
,对应于
,
在哪里
和
值为1的指示器变量是否为model_year.
分别是76和82。的model_year.
变量包含三个不同的值,可以使用独特的
函数。
独特的(Model_Year)
ans =3×170 76 82
fitlm
选择中最小的值model_year.
作为参考水平(“70”
),并创建两个指示器变量
和
.该模型只包含两个指标变量,因为如果模型包含三个指标变量(每个水平一个)和一个截距项,设计矩阵就会变得秩不足。
全指标变量模型
你可以解释的模型公式mdl
作为一个没有截距术语的三个指示变量的模型:
.
或者,您可以通过手工创建指标变量并指定模型公式来创建一个包含三个指标变量且没有截距项的模型。
temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year (: 1);Model_Year_76 = temp_Year (:, 2);Model_Year_82 = temp_Year (: 3);台=表(Model_Year_70 Model_Year_76、Model_Year_82 MPG);mdl = fitlm(资源描述,'MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1')
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 Estimated Coefficients: Estimate SE tStat pValue ________ _______ ______ __________ Model_Year_70 17.69 1.0328 17.127 3.2371e-30 Model_Year_76 21.574 0.95387 22.617 4.0156e-39 Model_Year_82 31.71 0.99896 31.743 5.2234e-51观测值:94、误差自由度:91均方根误差:5.56
在模型中选择参考级别
您可以通过修改类别变量中的类别顺序来选择引用级别。首先,创建一个分类变量一年
.
年=分类(Model_Year);
通过使用使用的类别的顺序类别
函数。
类别(年)
ans =3 x1细胞””{70}{76}{82 '}
如果你使用一年
作为一个预测变量fitlm
选择第一个类别“70”
作为参考水平。重新排序一年
通过使用reordercats
函数。
年份= reordercats(年,{'76',“70”,“82”});类别(Year_reordered)
ans =3 x1细胞””{76}{70}{82 '}
第一类Year_reordered
是'76'
.创建的线性回归模型英里/加仑
作为…的函数Year_reordered
.
mdl2 = fitlm(yor_reordered,mpg,“VarNames”,{'model_year',“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year Estimated Coefficients: Estimate SE tStat pValue ________ _______ _______ __________ (Intercept) 21.574 0.95387 22.617 4.0156e-39 Model_Year_70 -3.8839 1.4059 -2.7625 0.0069402 Model_Year_82 10.136 1.3812 7.3385 8.7634e-11观测数:94,误差自由度:F-statistic vs. constant model: 51.6, p-value = 1.07e-15
mdl2
用途'76'
作为参考水平,包括两个指标变量
和
.
评估分类预测
的模型展示mdl2
包括一个p-每一项的值,以检验对应的系数是否等于零。每一个p-value检查每个指示器变量。检查分类变量model_year.
作为一组指标变量,使用方差分析
.使用“组件”
(默认)选项要返回组件ANOVA表,该表包含模型中的每个变量的ANOVA统计信息,但常量项除外。
方差分析(mdl2“组件”)
ans =.2×5表SumSq DF MeanSq F pValue ________ ______ _____ __________ Model_Year 3190.1 2 1595.1 51.56 1.0694e-15错误2815.2 91 30.936
成分方差分析表包括p价值的model_year.
变量,它小于p- 指示器变量的值。
mdl
- - - - - -线性回归模型对象linearmodel.
对象|CompactLinearModel
对象线性回归模型对象,指定为alinearmodel.
使用fitlm
或步骤行程
,或者一个CompactLinearModel
使用袖珍的
.
sstype.
- - - - - -平方和型“h”
(默认)|1
|2
|3.
每个项的平方和类型,指定为该表中的一个值。
价值 | 描述 |
---|---|
1 |
类型1平方和-通过将该项添加到已经包含前面项的拟合中而得到的残差平方和的减少 |
2 |
类型2平方和-通过将该项添加到包含所有其他项的模型中得到的残差平方和的减少 |
3. |
类型3平方和-通过将该项添加到包含所有其他项的模型中,但其影响受限于使模型可估计的通常“西格玛限制”而得到的残差平方和的减少 |
“h” |
层次模型-类似于第2类,但同时使用连续和分类因素来确定术语的层次 |
通过比较两种模型来确定任何术语的平方和。对于包含主要效果但没有互动的模型,值sstype.
只影响对不平衡数据的计算。
假设您正在拟合一个包含两个因素及其相互作用的模型,术语按顺序出现一个,B,AB.让R(·)表示模型的残差平方和。所以,R(一个,B,AB)为拟合整个模型的残差平方和,R(一个)为拟合主效应的残差平方和一个只有,R(1)仅为拟合均值的残差平方和。三种平方和类型如下:
术语 | 类型1平方和 | 类型2平方和 | 类型3平方和 |
---|---|---|---|
一个 |
R(1) -R(一个) |
R(B)- - -R(一个,B) |
R(B,AB)- - -R(一个,B,AB) |
B |
R(一个)- - -R(一个,B) |
R(一个)- - -R(一个,B) |
R(一个,AB)- - -R(一个,B,AB) |
AB |
R(一个,B)- - -R(一个,B,AB) |
R(一个,B)- - -R(一个,B,AB) |
R(一个,B)- - -R(一个,B,AB) |
3型方块的模型具有施加的SIGMA限制。例如,这意味着在拟合中R(B,AB的数组AB效果被限制为总和为0一个对于每个值B,并结束了B对于每个值一个.
对于第3类平方和:
如果mdl
是一个CompactLinearModel
对象和回归模型是非编制的,方差分析
返回一个错误。
如果mdl
是一个linearmodel.
对象和回归模型是非编制的,方差分析
当需要计算类型3的平方和时,使用效果编码来修改模型。
如果回归模型在mdl
是等级的,方差分析
计算结果而不重新修正模型。
sstype.
只适用于如果Anovatype.
是“组件”
.
TBL.
- ANOVA摘要统计表方差分析汇总统计表,作为表格返回。
的内容TBL.
的方差分析类型Anovatype.
.
如果Anovatype.
是“组件”
,然后TBL.
包含模型中除常数(截距)项外的每个变量的方差分析统计量。该表包括每个变量的以下列:
柱子 | 描述 |
---|---|
SumSq |
由术语解释的平方和,计算依赖于 |
DF |
自由度
|
MeanSq |
均方,定义为
|
F |
F-统计值来检验相应系数为零的零假设,由 当零假设成立时F统计的F分布。分子的自由度是 |
pValue |
p价值的F统计值 |
例如,请参见因素方差分析表.
如果Anovatype.
是'概括'
,然后TBL.
包含每行的分组术语的摘要统计信息。该表包含与相同的列“组件”
和这些行:
行 | 描述 |
---|---|
全部的 |
总统计数据
|
模型 |
整个模型的统计
如果 |
线性 |
线性项的统计
|
非线性 |
非线性条款的统计数据
|
剩余 |
统计数据的残差
如果 |
缺乏合适的 |
Lack-of-fit统计
|
纯粹的错误 |
纯错误的统计数据
|
例如,请参见摘要方差分析表.
你点击一个链接对应于这个MATLAB命令:
通过在MATLAB命令窗口中输入命令来运行命令。Web浏览器不支持MATLAB命令。金宝app
你也可以从以下列表中选择一个网站:
选择中国网站(中文或英文)以获得最佳网站性能。其他MathWorks国家站点没有针对您所在位置的访问进行优化。