解释线性回归结果

这个例子展示了如何显示和解释线性回归输出统计信息。

适合线性回归模型

加载carsmall数据集，一个矩阵输入数据集。

负载carsmallX =(重量、马力、加速度);

使用线性回归模型Fitlm.．

lm = fitlm（x，mpg）

LM =线性回归模型：Y〜1 + X1 + X2 + X3估计系数：估计系数PVALUE __________ ___________________________0.8957e-217.8785 12.37 0.024313 0.024313 0.024313 0.024313-1.7663 0.08078 x3 -0.111583 0.1111583 0.19333 -0.059913 0.95236观测数量：93，误差自由度：89根均匀误差：4.09 r断层：0.752，调整R线：0.744 F统计与常数型号：90，p值= 7.38e-27

模型显示包括模型公式、估计系数和模型汇总统计。

显示屏中的型号公式，Y ~ 1 + x1 + x2 + x3，对应于 $y = β_{0.} + β_{1} X_{1} + β_{2} X_{2} + β_{3.} X_{3.} + ϵ$ ．

模型显示显示估计的系数信息，这些信息存储在系数财产。显示系数财产。

LM.COEFFICERS.

ans =4×4表e- x x x x x x x x x x x x x x x x x

这系数属性包括以下列:

估计- 模型中每个对应术语的系数估计。例如，常数项的估计值（拦截）是47.977。
SE.-系数的标准误差。
Tstat.-T.-每个系数的统计量，以测试对应系数为零的零假设，相对于它不为零的替代，给定模型中的其他预测器。注意tstat =估计/ se．例如，T.-statistic for the intercept is 47.977/3.8785 = 12.37。
pValue-P.- 为valueT.-对应系数是否等于零的假设检验的统计量。例如，P.价值的T.- 艺术性x2大于0.05，因此相对于模型中其他项，该项在5%显著水平下不显著。

模型汇总统计如下:

观察次数-没有任何的行数南值。例如，观察次数是93，因为英里/加仑数据向量有六个南价值观和马力数据矢量有一个南不同观察的值，其中行数X和英里/加仑是100。
误差自由度-N-P.,在那里N是观察的次数，和P.为模型中系数的个数，包括截距。例如，这个模型有四个预测因子，所以误差自由度是93 - 4 = 89。
均方根误差-均方误差的平方根，估计误差分布的标准差。
平方和调整后的平方- 分别测定系数和调整的测定系数。例如，平方值表明，该模型解释了响应变量中大约75％的变化英里/加仑．
f统计量与常数模型-测试统计F-对回归模型的检验，检验模型是否明显优于仅包含常数项的退化模型。
假定值-P.- 为valueF-测试模型。例如，该模型与a具有重要意义P.- 7.3816E-27的价值。

Anova.

对模型进行方差分析(ANOVA)。

Anova（LM，“摘要”）

ans =3×5表SumSq DF MeanSq F pValue ________ ______ ______ __________ Total 6004.8 92 65.269 Model 4516 3 1505.3 89.987 7.3816e-27 Residual 1488.8 89 16.728

这个方差分析显示屏显示以下内容。

SumSq-回归模型的平方和，模型，错误术语，剩余，合计，总计．
DF.-每项的自由度。自由度为 $N - 1$ 总, $P. - 1$ 对于模型，并且 $N - P.$ 对于误差项，其中 $N$ 是观察的次数，和 $P.$ 为模型中系数的个数，包括截距。例如，英里/加仑数据向量有六个南值和数据向量之一，马力,有一个南值，所以总的自由度是93 - 1 = 92。模型中有四个系数DF.是4 - 1 = 3，和DF.对于误差项是93 - 4 = 89。
介绍- 每个术语的平均平方误差。注意MeanSq = SumSq / DF．例如，误差项的均方误差为1488.8/89 = 16.728。这个值的平方根是均方根误差在线性回归显示，或4.09。
F-F-统计值，与f统计量与常数模型在线性回归显示。在本例中，它是89.987，在线性回归中显示了这一点F- 级值舍入为90。
pValue-P.- 为valueF-测试模型。在此例中为7.3816e-27。

如果回归模型中有高阶项，方差分析分区模型SumSq变成由高阶项解释的部分和其他部分。相应的F-统计学用于检验作为单独组的线性项和高阶项的显著性。

如果数据包含重复的，或相同预测值的多个测量值，则方差分析分区错误SumSq进入复制和其余部分。相应的F-statistic是通过比较模型残差和在重复上计算的无模型方差估计来检验缺乏拟合。

分解模型项的方差分析表。

ANOVA（LM）

ans =4×5表SumSq DF MeanSq F pValue __________ ________ _________ __________ x1 563.18 1 563.18 33.667 9.8742e-08 x2 52.187 1 52.187 3.1197 0.08078 x3 0.060046 1 0.060046 0.0035895 0.95236错误1488.8 89 16.728

这个方差分析Display显示如下:

第一列 - 模型中包含的术语。
SumSq- 除常数外，每个术语的平方误差之和。
DF.-自由度。在这个例子中,DF.模型和中每一项是1吗 $N - P.$ 对于误差项，其中 $N$ 是观察的次数，和 $P.$ 为模型中系数的个数，包括截距。例如，DF.这个模型的误差项是93 - 4 = 89。如果模型中的任何变量是分类变量，则DF.该变量是为其类别创建的指示器变量的数量(类别数量- 1)。
介绍- 每个术语的平均平方误差。注意MeanSq = SumSq / DF．例如，误差项的均方误差为1488.8/89 = 16.728。
F-F- 每个系数的值。这F-value为每一项的均方误差与均方误差之比，即f =均衡（xi）/均衡（错误）．每个F- 斯塔蒂斯有一个F分布，具有分析器自由度，DF.对应项的值，分母自由度， $N - P.$ ． $N$ 是观察的次数，和 $P.$ 为模型中系数的个数。在这个例子中，每一个F- 斯塔蒂斯有一个 $F_{（ 1 那 8. 9. ）}$ 分布。
pValue-P.-每个假设检验对线性模型中相应项的系数的值。例如，P.- 为valueF统计系数x2为0.08078，在5%显著性水平下，对于模型中的其他项不显著。

系数置信区间

显示系数置信区间。

coefCI (lm)

ans =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726

每行中的值分别是系数的默认95%置信区间的下限和上限。例如，第一行显示了截距的下限40.2702和上限55.6833， $β_{0.}$ ．同样，第二行显示了 $β_{1}$ 等等。置信区间为线性回归系数的估计提供了精度的度量。一个 $1 0. 0. （ 1 - α ）％$ 置信区间给出了相应回归系数的取值范围 $1 0. 0. （ 1 - α ）％$ 的信心。

您也可以改变置信水平。找到系数99％的置信区间。

COEFCI（LM，0.01）

ans =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973

系数假设检验

测试所有预测器变量系数等于零的空假设与替代假设相对于零点不同。

[p F d] = coefTest (lm)

P = 7.3816e-27

f = 89.9874.

d = 3

这里，colealt执行A.F- 测试所有回归系数（截距除外）为零，至少一个与零不同，这基本上是模型上的假设。它返回 $P.$ ，这P.-价值，F，这F- 艺术，和D.，分子的自由度。这F统计和P.-Value与线性回归显示器中的值相同方差分析对于模型。自由度是4 - 1 = 3，因为模型中有四个预测器（包括拦截）。

现在，对第一和第二预测变量的系数执行假设测试。

h = [0 1 0 0;0 0 1 0];[p，f，d] = colealt（lm，h）

p = 5.1702 e-23

f = 96.4873.

d = 2

分子自由度是测试的系数的数量，在该示例中是2。结果表明至少有一个 $β_{2}$ 和 $β_{3.}$ 与零不同。

也可以看看

方差分析|Fitlm.|LinearModel|stepwiselm

解释线性回归结果

适合线性回归模型

Anova.

系数置信区间

系数假设检验

也可以看看

相关例子

更多关于

统计和机器学习工具箱文档

金宝app

掌握机器学习：使用MATLAB逐步指南