这个例子展示了如何显示和解释线性回归输出统计信息。
加载Carsmall.
数据集,矩阵输入数据集。
负载Carsmall.X =(重量、马力、加速度);
利用拟合线性回归模型fitlm
.
lm = fitlm (X,英里/加仑)
lm = Linear regression model: y ~ 1 + x1 + x2 + x3 Estimated Coefficients: Estimate SE tStat pValue __________ _________ _________ __________ (Intercept) 47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236观测数:93、误差自由度:89均方根误差:4.09 r平方:0.752,校正r平方:0.744 f统计量与常数模型:90,p-value = 7.38e-27
模型显示包括模型公式、估计系数和模型汇总统计。
显示的模型公式,Y ~ 1 + x1 + x2 + x3
,对应于
.
模型显示显示估计的系数信息,这些信息存储在系数
财产。显示系数
财产。
lm。系数
ans =4×4表e- x x x x x x x x x x x x x x x x x
的系数
属性包括以下列:
估计
-模型中每个对应项的系数估计。例如,对常数项的估计(拦截
)是47.977。
SE
-系数的标准误差。
tStat
- - - - - -t-每个系数的统计量,以测试对应系数为零的零假设,相对于它不为零的替代,给定模型中的其他预测器。请注意,tStat =估计/ SE
.例如,t-statistic for the intercept is 47.977/3.8785 = 12.37。
pValue
- - - - - -p价值的t-对应系数是否等于零的假设检验的统计量。例如,p价值的t统计的x2
大于0.05,因此相对于模型中其他项,该项在5%显著水平下不显著。
模型汇总统计如下:
数量的观察
-没有任何的行数南
价值观。例如,数量的观察
是93因为英里/加仑
数据向量有6个南
价值和马力
数据向量有一个南
值,其中行数X
和英里/加仑
是100。
误差自由度
- - - - - -n- - - - - -p,在那里n是观察的次数,和p为模型中系数的个数,包括截距。例如,这个模型有四个预测因子,所以误差自由度
是93 - 4 = 89。
均方根误差
-均方误差的平方根,估计误差分布的标准差。
平方
和调整后的平方
-分别为确定系数和调整确定系数。例如,平方
值表明,该模型解释了响应变量中大约75%的可变性英里/加仑
.
F统计与常量模型
-测试统计F- 在回归模型上,测试模型是否比仅由恒定术语组成的简并模型更好。
p值
- - - - - -p价值的F-测试模型。例如,模型是有意义的p7.3816 e-27的价值。
对模型进行方差分析(ANOVA)。
方差分析(lm,“摘要”)
ans =3×5表SumSq DF MeanSq F pValue ________ ______ ______ __________ Total 6004.8 92 65.269 Model 4516 3 1505.3 89.987 7.3816e-27 Residual 1488.8 89 16.728
这方差分析
Display显示如下内容。
SumSq
-回归模型的平方和,模型
,误差项,剩余
,合计,全部的
.
DF
- 每个术语的自由度。自由度是
总,
对于模型,和
对于误差项,其中
是观察的次数,和
为模型中系数的个数,包括截距。例如,英里/加仑
数据向量有6个南
值和其中一个数据向量,马力
,有一个南
值,所以总的自由度是93 - 1 = 92。模型中有四个系数DF
4 - 1 = 3吗DF
对于误差项是93 - 4 = 89。
MeanSq
-每项均方误差。请注意,MeanSq = SumSq / DF
.例如,误差项的均方误差为1488.8/89 = 16.728。这个值的平方根是根均匀误差
在线性回归显示,或4.09。
F
- - - - - -F-统计值,与F统计与常量模型
在线性回归显示。在本例中,它是89.987,在线性回归中显示了这一点F-统计值四舍五入为90。
pValue
- - - - - -p价值的F-测试模型。在这个例子中,它是7.3816e-27。
如果回归模型中有高阶项,方差分析
分区模型SumSq
变成由高阶项解释的部分和其他部分。相应的F- 守人用于测试线性术语和高阶项作为单独组的重要性。
如果数据包含重复的,或相同预测值的多个测量值,则方差分析
分区的错误SumSq
为复制和其他的部分。相应的F--Statistic是为了通过比较复制上计算的无模型方差估计的模型残差来测试缺乏契合。
分解模型术语的ANOVA表。
方差分析(lm)
ans =4×5表SUMSQ DF PERICEQ F PVALUE ________________________1563.18 1 563.18 33.667 9.8742E-08 x2 52.187 1 52.187 0.08078 x3 0.060046 0.08070 0.95230 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95236 0.95230 0.95236
这方差分析
Display显示如下:
第一列-模型中包含的项。
SumSq
-除常数外的每一项的误差平方和。
DF
- 自由程度。在这个例子中,DF
模型和中每一项是1吗
对于误差项,其中
是观察的次数,和
为模型中系数的个数,包括截距。例如,DF
这个模型的误差项是93 - 4 = 89。如果模型中的任何变量是分类变量,则DF
对于该变量是为其类别创建的指示变量数(类别数 - 1)。
MeanSq
-每项均方误差。请注意,MeanSq = SumSq / DF
.例如,误差项的均方误差为1488.8/89 = 16.728。
F
- - - - - -F-每个系数的值。的F-value为每一项的均方误差与均方误差之比,即F = MeanSq (xi) / MeanSq(错误)
.每一个F统计有一个F分布,分子自由度,DF
对应项的值,分母自由度,
.
是观察的次数,和
为模型中系数的个数。在这个例子中,每一个F统计有一个
分布。
pValue
- - - - - -p-每个假设检验对线性模型中相应项的系数的值。例如,p价值的F- 雕刻的系数x2
为0.08078,在5%显著性水平下,对于模型中的其他项不显著。
显示系数置信区间。
coefCI (lm)
ans =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726
对于系数的默认95%置信区间,每行中的值分别是较低和上置信限制。例如,第一行显示截距的下限和上限,40.2702和55.6833, .同样,第二行显示了限制 等等。置信区间提供了线性回归系数估计的精度的量度。一种 置信区间给出相应的回归系数将与之相同 的信心。
您还可以更改置信级别。找出系数的99%置信区间。
0.01 coefCI (lm)
ans =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973
检验所有预测变量系数都等于零的零假设和至少有一个变量系数不等于零的备用假设。
[p F d] = coefTest (lm)
p = 7.3816 e-27
F = 89.9874
d = 3
在这里,coefTest
执行一个F-检验所有回归系数(除截距外)均为零而至少有一项与零不相等的假设,这实质上是模型的假设。它返回
,p值,F
,F统计,d
,分子的自由度。的F统计和p-value与线性回归显示和中的值相同方差分析
的模型。自由度为4 - 1 = 3,因为模型中有四个预测因子(包括截距)。
现在,对第一和第二预测变量的系数进行假设检验。
H = [0 1 0 0;0 0 1 0];[p F d] = coefTest (lm, H)
p = 5.1702 e-23
F = 96.4873
d = 2
分子的自由度是被测系数的个数,在这个例子中是2。结果表明,至少有一个 和 不同于零。
LinearModel
|fitlm
|stepwiselm
|方差分析