方差分析
线性回归模型的方差分析
描述
例子
因素方差分析表
创建一个组件从一个线性回归模型的方差分析表医院
数据集。
加载医院
数据集和创建一个模型血压随着年龄和性别的函数。
负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),…“VariableNames”,{“年龄”,“性”,“血压”});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性+ ^ 2岁”)
mdl =线性回归模型:血压~ 1 +年龄+性别+ ^ 2岁估计系数:估计SE tStat pValue _____说_____岁(拦截)63.942 19.194 3.3314 0.0012275 0.90673 1.0442 0.86837 0.38736 Sex_Male ^ 2岁-0.011275 0.013853 -0.81389 0.031643 3.0019 1.3765 2.1808 0.41772的观测数量:100年,错误自由度:96根均方误差:6.83平方:0.0577,调整平方:0.0283 f统计量与常数模型:1.96,p = 0.125
创建一个模型的方差分析表。
台=方差分析(mdl)
台=4×5表看上去SumSq DF MeanSq F pValue __得一样_________ ________年龄18.705 - 1 18.705 0.40055 0.52831性别222.09 - 1 222.09 4.7558 0.031643 30.934 ^ 2岁1 30.934 0.66242 0.41772 4483.1 96 46.699错误
每个词的表显示下列列除常数(拦截)项:
SumSq
——平方和用这个术语来解释。DF
——自由度。在这个例子中,DF
模型中的每一项和1吗n- - - - - -p误差项的n是观察和的数量吗p是系数的数量(包括拦截)的模型。例如,DF
这个模型的误差项是100 - 4 = 96。如果任何变量在模型中是类别变量,DF
创建的指标变量的数量为变量的类别(类别数- 1)。MeanSq
——定义为均方MeanSq = SumSq / DF
。例如,均方误差项的均方误差(MSE)是4.4831 e + 03/96 = 46.6991。F
- - - - - -F统计值来测试相应的系数为零的零假设,计算F = MeanSq / MSE
,在那里均方误差
均方误差。零假设是正确时,F统计的F分布。分子的自由度是DF
值对应的项,分母的自由度n- - - - - -p。在这个例子中,每个F统计之前 分布。pValue
- - - - - -p价值的F统计值。例如,p值为年龄
是0.5283,暗示年龄
不是重要的在5%的显著性水平给定模型中的其他条款。
摘要方差分析表
创建一个概要的线性回归模型方差分析表医院
数据集。
加载医院
数据集和创建一个模型血压随着年龄和性别的函数。
负载医院台=表(hospital.Age、hospital.Sex hospital.BloodPressure (:, 2),…“VariableNames”,{“年龄”,“性”,“血压”});资源描述。性=categorical(tbl.Sex); mdl = fitlm(tbl,“血压~性+ ^ 2岁”)
mdl =线性回归模型:血压~ 1 +年龄+性别+ ^ 2岁估计系数:估计SE tStat pValue _____说_____岁(拦截)63.942 19.194 3.3314 0.0012275 0.90673 1.0442 0.86837 0.38736 Sex_Male ^ 2岁-0.011275 0.013853 -0.81389 0.031643 3.0019 1.3765 2.1808 0.41772的观测数量:100年,错误自由度:96根均方误差:6.83平方:0.0577,调整平方:0.0283 f统计量与常数模型:1.96,p = 0.125
创建一个概要模型的方差分析表。
台=方差分析(mdl,“摘要”)
台=7×5表看上去SumSq DF MeanSq F pValue __得一样_________ ________ 99 4757.8 91.577 1.961 0.12501 274.73 48.059模型3。线性243.8 - 2 121.9 2.6103 0.078726。非线性30.934 96 46.699 4483.1 30.934 0.66242 0.41772残留。缺乏适合1483.1 38.028 0.72253 0.85732。52.632纯错误3000 57
表显示测试组:总
,模型
,剩余
。
总
这一行显示了总平方和(SumSq
),自由度(DF
),和均方误差(MeanSq
)。请注意,MeanSq = SumSq / DF
。模型
——这一行包括SumSq
,DF
,MeanSq
,F统计值(F
),p值(pValue
)。因为这个模型包含一个非线性项(^ 2岁
),方差分析
分区平方和(SumSq
)模型
分为两部分:SumSq
解释为线性条件(年龄
和性
),SumSq
解释为非线性项(^ 2岁
)。相应的F测试统计值是线性项和非线性项的重要性作为单独的组。由非线性组^ 2岁
词,所以它有相同的p价值的^ 2岁
项因素方差分析表。剩余
——这一行包括SumSq
,DF
,MeanSq
,F
,pValue
。因为数据集包括复制,方差分析
分区剩余SumSq
复制的部分(纯粹的错误
)和(缺乏合适的
)。为了测试缺乏配合,方差分析
计算F统计值,通过比较模型残差模范自由复制方差估计计算。的F统计值显示,没有证据的缺乏。
线性回归和分类预测
适合包含分类预测的线性回归模型。重新排序的类别分类预测控制模型的参考电平。然后,用方差分析
测试类别变量的意义。
模型的分类预测
加载carsmall
数据集和创建一个线性回归模型英里/加仑
的函数Model_Year
。把数值向量Model_Year
作为分类变量,确定预测使用“CategoricalVars”
名称-值对的论点。
负载carsmallmdl = fitlm (Model_Year MPG,“CategoricalVars”,1“VarNames”,{“Model_Year”,“英里”})
mdl =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ________交__________(拦截)17.69 1.0328 17.127 3.2371 e-30 Model_Year_76 Model_Year_82 0.0069402 3.8839 1.4059 2.7625 14.02 1.4369 9.7571 8.2164 e-16数量的观察:94年,错误自由度:91根均方误差:5.56平方:0.531,调整平方:0.521 f统计量与常数模型:51.6,p = 1.07 e15汽油
在显示模型公式,英里/加仑~ 1 + Model_Year
,对应于
,
在哪里
和
指标变量的值是一个如果的价值Model_Year
分别是76年和82年。的Model_Year
变量包括三个不同的值,您可以检查使用独特的
函数。
独特的(Model_Year)
ans =3×170 76 82
fitlm
选择最小的值Model_Year
作为参考级别(“70”
)并创建两个指标变量
和
。模型只包含两个指标变量,因为设计矩阵成为等级不足如果模型包括三个指标变量(每个级别)和截距项。
模型和完整的指标变量
你可以解释的模型公式mdl
作为一个拥有三个指标变量的模型没有拦截的术语:
。
或者,您可以创建一个拥有三个指标变量的模型没有截距项通过手动创建指标变量和指定模型公式。
temp_Year = dummyvar(分类(Model_Year));Model_Year_70 = temp_Year (: 1);Model_Year_76 = temp_Year (:, 2);Model_Year_82 = temp_Year (: 3);台=表(Model_Year_70 Model_Year_76、Model_Year_82 MPG);mdl = fitlm(资源描述,“MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82 - 1 ')
mdl =线性回归模型:MPG ~ Model_Year_70 + Model_Year_76 + Model_Year_82估计系数:估计SE tStat pValue ________ ________ _____ Model_Year_70 17.69 1.0328 17.127 3.2371 e-30 Model_Year_76 21.574 0.95387 22.617 4.0156 e-39 Model_Year_82 31.71 0.99896 31.743 5.2234 e-51数量的观察:94年,错误自由度:91根均方误差:5.56
选择参考水平模型
你可以选择一个参考水平通过修改订单在一个分类变量的类别。首先,创建一个分类变量一年
。
年=分类(Model_Year);
检查使用的类别类别
函数。
类别(年)
ans =3 x1细胞””{70}{76}{82 '}
如果你使用一年
作为一个预测变量fitlm
选择第一类“70”
作为参考水平。重新排序一年
通过使用reordercats
函数。
Year_reordered = reordercats(一年,{“76”,“70”,“82”});类别(Year_reordered)
ans =3 x1细胞””{76}{70}{82 '}
第一类的Year_reordered
是“76”
。创建一个线性回归模型英里/加仑
的函数Year_reordered
。
mdl2 = fitlm (Year_reordered MPG,“VarNames”,{“Model_Year”,“英里”})
mdl2 =线性回归模型:MPG ~ 1 + Model_Year估计系数:估计SE tStat pValue ______和_____(拦截)21.574 0.95387 22.617 4.0156 e-39 Model_Year_70 Model_Year_82 0.0069402 -3.8839 1.4059 -2.7625 10.136 1.3812 7.3385 8.7634 e-11数量的观察:94年,错误自由度:91根均方误差:5.56平方:0.531,调整平方:0.521 f统计量与常数模型:51.6,p = 1.07 e15汽油
mdl2
使用“76”
作为参考水平,包括两个指标变量
和
。
评估分类预测
该模型显示mdl2
包括一个p每一项的值来测试是否相应的系数等于零。每一个p值检查每一个指标变量。检查类别变量Model_Year
作为一个群体的指标变量,使用方差分析
。使用“组件”
返回一个组件(默认)选项为每个变量方差分析表,包括方差分析统计模型中的常数项除外。
方差分析(mdl2“组件”)
ans =2×5表看上去SumSq DF MeanSq F pValue __得一样_____ __________ Model_Year 3190.1 - 2 2815.2 91 30.936 1595.1 51.56 1.0694 e15汽油错误
该组件包括方差分析表p价值的Model_Year
变量,这是小于p值的指标变量。
输入参数
mdl
- - - - - -线性回归模型对象
LinearModel
对象|CompactLinearModel
对象
线性回归模型对象,指定为一个LinearModel
创建的对象使用fitlm
或stepwiselm
,或者一个CompactLinearModel
创建的对象使用紧凑的
。
sstype
- - - - - -平方和类型
“h”
(默认)|1
|2
|3
平方和为每个术语类型,指定为这个表中的值之一。
价值 | 描述 |
---|---|
1 |
1型平方和,减少残差平方和通过添加这个词适合已经包括前面的条款 |
2 |
类型2平方和,减少残差平方和通过添加术语模型包含所有其他条款 |
3 |
3型平方和,减少残差平方和通过添加术语模型包含所有其他条款,但其影响约束遵守通常的“σ限制”,使有价值的模型 |
“h” |
层次模型- 2型类似,但使用连续和分类因素来确定术语的层次结构 |
的平方和词是由两个模型进行比较。但没有交互模型包含的主要影响,的价值sstype
影响计算不平衡数据。
假设你是拟合模型与两个因素及其相互作用,和条款的顺序出现一个,B,AB。让R(·)代表模型的残差平方和。所以,R(一个,B,AB)是整个模型残差平方和配件,R(一个)是残差平方和的主要影响一个只有,R(1)拟合残差平方和均值。三个平方和类型如下:
术语 | 1型平方和 | 2型平方和 | 类型3平方和 |
---|---|---|---|
一个 |
R(1)-R(一个) |
R(B)- - -R(一个,B) |
R(B,AB)- - -R(一个,B,AB) |
B |
R(一个)- - -R(一个,B) |
R(一个)- - -R(一个,B) |
R(一个,AB)- - -R(一个,B,AB) |
AB |
R(一个,B)- - -R(一个,B,AB) |
R(一个,B)- - -R(一个,B,AB) |
R(一个,B)- - -R(一个,B,AB) |
模型类型3平方和σ限制。这意味着,例如,在拟合R(B,AB),数组AB影响限制金额为0一个为每个值B,在B为每个值一个。
型3平方和:
如果
mdl
是一个CompactLinearModel
对象的回归模型是无,方差分析
返回一个错误。如果
mdl
是一个LinearModel
对象的回归模型是无,方差分析
不菲的模型使用影响编码时需要计算一个类型3平方和。如果回归模型
mdl
是分层的,方差分析
计算结果没有改装的模型。
sstype
只适用于如果anovatype
是“组件”
。
输出参数
资源描述
——方差分析统计总表
表
方差分析总结表的统计数据,作为一个表返回。
的内容资源描述
依赖于方差分析中指定的类型anovatype
。
如果
anovatype
是“组件”
,然后资源描述
包含每个变量的方差分析统计模型中除常数(拦截)。表为每个变量包括这些列:列 描述 SumSq
平方和用这个术语来解释,根据计算
sstype
DF
自由度
DF
数值变量的是1。DF
分类变量的数量指标变量创建类别(类别数- 1),请注意资源描述
为每个类别变量而不是包含一行一行的每一个指示符变量在模型中显示。使用方差分析
测试指标变量的一个分类变量作为一个群体。DF
一个误差项n- - - - - -p,在那里n是观察和的数量吗p是在模型中系数的数量。
MeanSq
均方,所定义的
MeanSq
=SumSq
/DF
MeanSq
误差项的均方误差(MSE)。F
F统计值来测试相应的系数为零的零假设,计算
F
=MeanSq
/均方误差
零假设是正确时,F统计的F分布。分子的自由度是
DF
值对应的项,分母的自由度n- - - - - -p。pValue
p价值的F统计值
例如,看到的因素方差分析表。
如果
anovatype
是“摘要”
,然后资源描述
为每一行包含汇总数据分组的术语。表包含了相同的列“组件”
和这些行:行 描述 总
总统计
SumSq
——总平方和,响应的偏差值的平方之和绕着它的意思DF
——自由度之和模型
和剩余
模型
统计数据模型作为一个整体
SumSq
——模型平方和,平方偏差之和的拟合值响应的意思。F
和pValue
——这些价值观提供检验模型是否适合明显比作为一个整体退化模型只有一个常数项组成。
如果
mdl
只包含线性项,方差分析
不分解模型
成线性
和非线性
。线性
统计线性条件
SumSq
——平方和线性项,模型之间的差异平方和和非线性项的平方和。F
和pValue
——这些价值观提供检验模型是否只有线性条件适合比退化模型只有一个常数项组成。方差分析
采用均方误差是基于完整的模型来计算F值,因此F获得的价值下降非线性项和重复测试不一样的价值这一行。
非线性
非线性项的统计数据
SumSq
——平方和非线性(高阶或交互)而言,这是获得的残差平方和的增加只保留线性项和放弃所有非线性项。F
和pValue
——这些价值观提供一个测试是否完整的模型符合明显好于一个较小的模型只包含线性项。
剩余
统计数据的残差
SumSq
残差平方和,平方剩余价值的总和MeanSq
均方误差,用于计算F统计值模型
,线性
,非线性
如果
mdl
是一个完整的LinearModel
对象和样本数据包含复制(多个观测共享相同的预测值)方差分析
剩余平方和分解成一个复制观察平方和(缺乏合适的
)和剩余平方和(纯粹的错误
)。缺乏合适的
Lack-of-fit统计
SumSq
——平方和由于缺乏健康,即残差平方和之间的差异和复制平方和。F
和pValue
- - -F统计值是lack-of-fit的比率MeanSq
纯粹的错误MeanSq
。偏见的比率提供了一个测试通过测量残差的变化是否超过复制的变化。一个低p值意味着向模型添加附加的条款可以提高健康。
纯粹的错误
纯粹的统计数据错误
SumSq
——复制平方和,得到发现点的设置相同的预测价值,计算偏差的平方和平均在每一组中,周围和池的计算值MeanSq
——模范自由纯误差方差的估计响应
例如,看到的摘要方差分析表。
扩展功能
GPU数组
加速代码运行在一个图形处理单元(GPU)使用并行计算工具箱™。
这个函数完全支持GPU数组。金宝app有关更多信息,请参见运行在GPU MATLAB函数(并行计算工具箱)。
版本历史
MATLAB命令
你点击一个链接对应MATLAB命令:
运行该命令通过输入MATLAB命令窗口。Web浏览器不支持MATLAB命令。金宝app
你也可以从下面的列表中选择一个网站:
表现最好的网站怎么走吗
选择中国网站(中文或英文)最佳站点的性能。其他MathWorks国家网站不优化的访问你的位置。