解释线性回归结果
这个例子展示了如何显示和解释线性回归统计输出。
合适的线性回归模型
加载carsmall
数据集,一个矩阵的输入数据集。
负载carsmallX =(重量、马力、加速度);
通过使用线性回归模型fitlm
。
lm = fitlm (X,英里/加仑)
lm =线性回归模型:y ~ 1 + x1 + x2 + x3估计系数:估计SE tStat pValue __________替__________(拦截)e-21 x1 -0.0065416 0.0011274 -5.8023 4.8957 47.977 3.8785 12.37 9.8742 e-08 x2 -0.042943 -0.011583 0.19333 -0.059913 0.95236 0.024313 -1.7663 0.08078 x3的观测数量:93年,错误自由度:89根均方误差:4.09平方:0.752,调整平方:0.744 f统计量与常数模型:90年,假定值= 7.38 e-27
模型显示包括模型公式,估计系数,和模型汇总统计。
在显示模型公式,y ~ 1 + x1 + x2 + x3
,对应于
。
模型显示显示了估计系数信息,存储在系数
财产。显示系数
财产。
lm.Coefficients
ans =4×4表估计SE tStat pValue __________替__________(拦截)47.977 3.8785 12.37 4.8957 e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742 e-08 x2 x3 -0.011583 0.19333 -0.059913 0.08078 -0.042943 0.024313 -1.7663 0.95236
的系数
财产包括这些列:
估计
——系数估计为每个模型中相应术语。例如,常数项的估计(拦截
)是47.977。SE
-标准误差的系数。tStat
- - - - - -t统计每个系数测试零假设相应的系数是零对替代,它不同于零,鉴于其他预测模型。请注意,tStat =估计/ SE
。例如,t统计的拦截是47.977/3.8785 = 12.37。pValue
- - - - - -p价值的t双边假设检验的统计量。例如,p价值的t统计的x2
大于0.05,所以这一项不是重要的在5%的显著性水平给定模型中的其他条款。
摘要统计模型是:
数量的观察
——没有任何的行数南
值。例如,数量的观察
93年,因为英里/加仑
数据向量有6个南
价值和马力
有一个数据向量南
值不同的观察,行数的地方X
和英里/加仑
是100。错误的自由度
- - - - - -n- - - - - -p,在那里n是观测的数量,和p在模型中系数的数量,包括拦截。例如,模型有四个预测因子,所以错误的自由度
是93 - 4 = 89。根均方误差
均方误差的平方根,估计误差分布的标准偏差。平方
和调整后的平方
——确定和调整系数确定系数,分别。例如,平方
值表明,模型解释了大约75%的变化响应变量英里/加仑
。f统计量与常数模型
——测试数据F以及回归模型,哪些测试模型适合明显好于退化模型是否只有一个常数项组成。假定值
- - - - - -p价值的F以及在模型。例如,模型是重要的p7.3816 e-27的价值。
方差分析
进行方差分析(方差分析)模型。
方差分析(lm,“摘要”)
ans =3×5表SumSq DF MeanSq F pValue ______ __交__________总92 65.269 4516 1505.3 89.987 7.3816 6004.8 e-27剩余1488.8 89 16.728
这方差分析
显示器显示如下。
SumSq
平方和的回归模型,模型
误差项,剩余
,总总
。DF
为每个术语——自由度。自由度是 总, 为模型, 误差项的 是观测的数量,和 在模型中系数的数量,包括拦截。例如,英里/加仑
数据向量有6个南
数据的值和一个向量,马力
,有一个南
为不同的观察值,所以总自由度是93 - 1 = 92。有四个系数模型中,模型DF
4 - 1 = 3,DF
误差项是93 - 4 = 89。MeanSq
——为每个学期均方误差。请注意,MeanSq = SumSq / DF
。例如,误差项的均方误差为1488.8/89 = 16.728。这个值的平方根根均方误差
在线性回归显示,或4.09。F
- - - - - -F统计值,这是一样的f统计量与常数模型
在线性回归显示。在本例中,它是89.987,在线性回归显示这一点F统计值是围捕了90。pValue
- - - - - -p价值的F以及在模型。在本例中,它是7.3816 e-27。
如果有高阶项的回归模型,方差分析
分区模型SumSq
到部分解释为高阶术语和休息。相应的F统计数据是测试线性项和高阶项的意义作为单独的组。
如果数据包括复制,或多个同一预测测量值,那么方差分析
分区的错误SumSq
复制,其余的部分。相应的F统计数据是测试lack-of-fit通过比较与模范自由模型残差方差估计计算复制。
方差分析表分解模型。
方差分析(lm)
ans =4×5表SumSq DF MeanSq F pValue ________ __ ________ _____ __________ x1 563.18 - 1 563.18 33.667 9.8742 52.187 e-08 x2 1 0.060046 52.187 3.1197 0.08078 x3 1 0.060046 0.0035895 0.95236 1488.8 89 16.728错误
这方差分析
显示器显示如下:
第一列,包括在模型中。
SumSq
——平方误差的总和为每个术语除了常数。DF
——自由度。在这个例子中,DF
模型中的每一项和1吗 误差项的 是观测的数量,和 在模型中系数的数量,包括拦截。例如,DF
这个模型的误差项是93 - 4 = 89。如果任何一个变量在模型中是类别变量,DF
创建的指标变量的数量为变量的类别(类别数- 1)。MeanSq
——为每个学期均方误差。请注意,MeanSq = SumSq / DF
。例如,误差项的均方误差为1488.8/89 = 16.728。F
- - - - - -F为每个系数值。的F的均方值的比例是每学期和均方误差,也就是说,F = MeanSq (xi) / MeanSq(错误)
。每一个F统计有一个F分布,分子自由度,DF
值对应的项,分母自由度, 。 是观测的数量,和 是在模型中系数的数量。在这个例子中,每个F统计有一个 分布。pValue
- - - - - -p值为每一个假设检验相应的系数项的线性模型。例如,p价值的F统计系数x2
是0.08078,不是重要的在5%的显著性水平给定模型中的其他条款。
系数的置信区间
显示系数的置信区间。
coefCI (lm)
ans =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726
在每一行的值上下置信区间,分别为默认95%置信区间系数。例如,第一行显示了较低的上限,40.2702和55.6833,拦截, 。同样地,第二行显示了限制 等等。置信区间提供精确的测量线性回归系数的估计。一个 置信区间给出相应的回归系数范围将在一起 的信心。
你也可以改变的信心水平。找到系数的99%置信区间。
0.01 coefCI (lm)
ans =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973
假设检验在系数
测试零假设,所有的预测变量系数等于零和替代假说,至少其中之一是不同于零。
[p F d] = coefTest (lm)
p = 7.3816 e-27
F = 89.9874
d = 3
在这里,coefTest
执行一个F以及假设所有回归系数(除了拦截)为零和至少一个不同于零,这实质上是对模型的假设。它返回
,p值,F
,F统计,d
,分子的自由度。的F统计和p价值是一样的的线性回归和显示方差分析
的模型。自由度是4 - 1 = 3,因为有四个预测因子(包括拦截)的模型。
现在,执行一个假设检验在第一和第二的系数预测变量。
H = [0 1 0 0;0 0 1 0);[p F d] = coefTest (lm, H)
p = 5.1702 e-23
F = 96.4873
d = 2
分子的自由度是系数测试的数量,在这个例子中是2。结果表明,至少有一个 和 不同于零。
另请参阅
LinearModel
|fitlm
|stepwiselm
|方差分析