这个例子展示了如何显示和解释线性回归输出统计信息。
加载carsmall
数据集,一个矩阵输入数据集。
负载carsmallX =[重量,马力,加速度];
拟合线性回归模型fitlm
.
lm = fitlm(X,MPG)
lm =线性回归模型:y ~ 1 + x1 + x2 + x3估计系数:估计SE tStat pValue __________ _________ _________ __________(截距)47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236观测数:93,误差自由度:89均方根误差:4.09 r平方:0.752,调整r平方:0.744 f统计量vs常数模型:90,p值= 7.38e-27
模型显示包括模型公式、估计系数和模型摘要统计信息。
显示中的模型公式,Y ~ 1 + x1 + x2 + x3
,对应于
.
模型显示器显示估计的系数信息,这些信息存储在系数
财产。显示系数
财产。
lm。系数
ans =4×4表估计SE tStat pValue __________ _________ _________ __________(拦截)47.977 3.8785 12.37 4.8957e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742e-08 x2 -0.042943 0.024313 -1.7663 0.08078 x3 -0.011583 0.19333 -0.059913 0.95236
的系数
属性包括以下列:
估计
-模型中每个对应项的系数估计。例如,对常数项(拦截
)为47.977。
SE
-系数标准误差。
tStat
- - - - - -t-statistic对每个系数进行统计,以检验原假设,即对应的系数为零,而不是它不同于零的替代,给定模型中的其他预测因素。请注意,tStat =估计/SE
.例如,t-statistic for the intercept = 47.977/3.8785 = 12.37。
pValue
- - - - - -p-valuet-统计的假设检验对应的系数是否等于零。例如,p的-valuet统计的x2
大于0.05,因此该项在给定模型中其他项的5%显著性水平下不显著。
模型的汇总统计如下:
观察次数
-无的行数南
值。例如,观察次数
93,因为英里/加仑
数据向量有6个南
价值观和马力
数据向量是1南
值,其中的行数X
而且英里/加仑
是100。
误差自由度
- - - - - -n- - - - - -p,在那里n是观察数,和p是模型中的系数数,包括截距。例如,模型有四个预测器,因此误差自由度
是93 - 4 = 89。
均方根误差
-均方误差的平方根,它估计误差分布的标准偏差。
平方
而且调整后的平方
-决定系数和调整决定系数。例如,平方
Value表明,该模型解释了响应变量中大约75%的可变性英里/加仑
.
f统计量与常数模型
的测试统计量F-对回归模型进行测试,测试模型是否比仅包含常数项的退化模型拟合得更好。
假定值
- - - - - -p-valueF-测试模型。例如,该模型具有重要意义p-value of 7.3816e-27。
对模型进行方差分析。
方差分析(lm,“摘要”)
ans =3×5表SumSq DF MeanSq F pValue ________ ______ ______ __________ Total 6004.8 92 65.269 Model 4516 3 1505.3 89.987 7.3816e-27 Residual 1488.8 89 16.728
这方差分析
Display显示如下所示。
SumSq
-回归模型的平方和,模型
,误差项,剩余
,和总数,总计
.
DF
-每个项的自由度。自由度是
总的来说,
对于模型,和
对于误差项,其中
是观察数,和
是模型中的系数数,包括截距。例如,英里/加仑
数据向量有6个南
值和其中一个数据向量,马力
,有一个南
值为不同的观测值,因此总自由度为93 - 1 = 92。这个模型有四个系数,所以这个模型DF
4 - 1 = 3,那么DF
误差项为93 - 4 = 89。
MeanSq
-每项的均方误差。请注意,MeanSq = SumSq/DF
.例如,误差项的均方误差为1488.8/89 = 16.728。这个值的平方根就是均方根误差
在线性回归中显示,还是4.09。
F
- - - - - -F-statistic value,与f统计量与常数模型
在线性回归中显示。在这个例子中,它是89.987,并在线性回归中显示这一点F-statistic值四舍五入到90。
pValue
- - - - - -p-valueF-测试模型。本例中为7.3816e-27。
如果回归模型中存在高阶项,方差分析
划分模型SumSq
变成由高阶项和其他部分解释的部分。相应的F-统计是用于测试线性项和高阶项作为单独组的显著性。
如果数据包括相同预测值的重复或多次测量,则方差分析
错误分区SumSq
进入复制部分和其他部分。相应的F-statistic用于通过比较模型残差与在重复上计算的无模型方差估计来检验缺乏拟合。
分解ANOVA表的模型项。
方差分析(lm)
ans =4×5表SumSq DF MeanSq F pValue __________ ________ _________ __________ x1 563.18 1 563.18 33.667 9.8742e-08 x2 52.187 1 52.187 3.1197 0.08078 x3 0.060046 1 0.060046 0.0035895 0.95236 Error 1488.8 89 16.728
这方差分析
显示如下:
第一列-模型中包含的术语。
SumSq
-除常数外的每个项的误差平方和。
DF
-自由度。在这个例子中,DF
模型中的每一项都是1吗
对于误差项,其中
是观察数,和
是模型中的系数数,包括截距。例如,DF
该模型的误差项为93 - 4 = 89。如果模型中的任何变量是分类变量,则DF
对于该变量,是为其类别创建的指标变量的数量(类别数量- 1)。
MeanSq
-每项的均方误差。请注意,MeanSq = SumSq/DF
.例如,误差项的均方误差为1488.8/89 = 16.728。
F
- - - - - -F-每个系数的值。的F-value为各项的均方与均方误差之比,即:F = MeanSq(xi)/MeanSq(错误)
.每一个F-statistic有一个F分子自由度的分布,DF
对应项的值,以及分母自由度,
.
是观察数,和
是模型中的系数数。在本例中,每个F-statistic有一个
分布。
pValue
- - - - - -p对线性模型中相应项的系数进行假设检验的-value。例如,p-valueF-统计系数x2
为0.08078,在模型中其他项的5%显著性水平上不显著。
显示置信区间系数。
coefCI (lm)
ans =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726
每行中的值分别是系数默认95%置信区间的下限和上限置信限。例如,第一行显示截距的下限和上限40.2702和55.6833, .同样,第二行显示了的限制 等等。置信区间为线性回归系数估计提供了精度度量。一个 置信区间给出了相应的回归系数所处的范围 的信心。
你也可以改变置信度。求出系数的99%置信区间。
0.01 coefCI (lm)
ans =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973
检验所有预测变量系数都等于零的原假设与至少其中一个不等于零的备用假设。
[p,F,d] = coefTest(lm)
P = 7.3816e-27
F = 89.9874
D = 3
在这里,coefTest
执行一个F-检验假设,所有回归系数(除了截距)都为零,而至少有一个与零不同,这本质上是模型上的假设。它返回
,p值,F
,F统计,d
分子自由度。的F统计和p-value与线性回归显示和中的值相同方差分析
对于模型。自由度为4 - 1 = 3,因为模型中有四个预测因子(包括截距)。
现在,对第一个和第二个预测变量的系数进行假设检验。
H = [0 1 0 0;0 0 10 0];[p,F,d] = coefTest(lm,H)
P = 5.1702e-23
F = 96.4873
D = 2
分子自由度是测试系数的数量,在本例中为2。结果表明,至少有一个 而且 不等于零。
LinearModel
|fitlm
|stepwiselm
|方差分析