解释线性回归结果

这个例子展示了如何显示和解释线性回归统计输出。

合适的线性回归模型

加载carsmall数据集,一个矩阵的输入数据集。

负载carsmallX =(重量、马力、加速度);

通过使用线性回归模型fitlm。

lm = fitlm (X,英里/加仑)

lm =线性回归模型:y ~ 1 + x1 + x2 + x3估计系数:估计SE tStat pValue __________替__________(拦截)e-21 x1 -0.0065416 0.0011274 -5.8023 4.8957 47.977 3.8785 12.37 9.8742 e-08 x2 -0.042943 -0.011583 0.19333 -0.059913 0.95236 0.024313 -1.7663 0.08078 x3的观测数量:93年,错误自由度:89根均方误差:4.09平方:0.752,调整平方:0.744 f统计量与常数模型:90年,假定值= 7.38 e-27

模型显示包括模型公式,估计系数,和模型汇总统计。

在显示模型公式,y ~ 1 + x1 + x2 + x3,对应于 $y = β_{0} + β_{1} X_{1} + β_{2} X_{2} + β_{3} X_{3} + ϵ$ 。

模型显示显示了估计系数信息,存储在系数财产。显示系数财产。

lm.Coefficients

ans =4×4表估计SE tStat pValue __________替__________(拦截)47.977 3.8785 12.37 4.8957 e-21 x1 -0.0065416 0.0011274 -5.8023 9.8742 e-08 x2 x3 -0.011583 0.19333 -0.059913 0.08078 -0.042943 0.024313 -1.7663 0.95236

的系数财产包括这些列:

估计——系数估计为每个模型中相应术语。例如,常数项的估计(拦截)是47.977。
SE-标准误差的系数。
tStat- - - - - -t统计每个系数测试零假设相应的系数是零对替代,它不同于零,鉴于其他预测模型。请注意,tStat =估计/ SE。例如,t统计的拦截是47.977/3.8785 = 12.37。
pValue- - - - - -p价值的t双边假设检验的统计量。例如,p价值的t统计的x2大于0.05,所以这一项不是重要的在5%的显著性水平给定模型中的其他条款。

摘要统计模型是:

数量的观察——没有任何的行数南值。例如,数量的观察93年,因为英里/加仑数据向量有6个南价值和马力有一个数据向量南值不同的观察,行数的地方X和英里/加仑是100。
错误的自由度- - - - - -n- - - - - -p,在那里n是观测的数量,和p在模型中系数的数量,包括拦截。例如,模型有四个预测因子,所以错误的自由度是93 - 4 = 89。
根均方误差均方误差的平方根,估计误差分布的标准偏差。
平方和调整后的平方——确定和调整系数确定系数,分别。例如,平方值表明,模型解释了大约75%的变化响应变量英里/加仑。
f统计量与常数模型——测试数据F以及回归模型,哪些测试模型适合明显好于退化模型是否只有一个常数项组成。
假定值- - - - - -p价值的F以及在模型。例如,模型是重要的p7.3816 e-27的价值。

方差分析

进行方差分析(方差分析)模型。

方差分析(lm,“摘要”)

ans =3×5表SumSq DF MeanSq F pValue ______ __交__________总92 65.269 4516 1505.3 89.987 7.3816 6004.8 e-27剩余1488.8 89 16.728

这方差分析显示器显示如下。

SumSq平方和的回归模型,模型误差项,剩余,总总。
DF为每个术语——自由度。自由度是 $n - - - - - - 1$ 总, $p - - - - - - 1$ 为模型, $n - - - - - - p$ 误差项的 $n$ 是观测的数量,和 $p$ 在模型中系数的数量,包括拦截。例如,英里/加仑数据向量有6个南数据的值和一个向量,马力,有一个南为不同的观察值,所以总自由度是93 - 1 = 92。有四个系数模型中,模型DF4 - 1 = 3,DF误差项是93 - 4 = 89。
MeanSq——为每个学期均方误差。请注意,MeanSq = SumSq / DF。例如,误差项的均方误差为1488.8/89 = 16.728。这个值的平方根根均方误差在线性回归显示,或4.09。
F- - - - - -F统计值,这是一样的f统计量与常数模型在线性回归显示。在本例中,它是89.987,在线性回归显示这一点F统计值是围捕了90。
pValue- - - - - -p价值的F以及在模型。在本例中,它是7.3816 e-27。

如果有高阶项的回归模型,方差分析分区模型SumSq到部分解释为高阶术语和休息。相应的F统计数据是测试线性项和高阶项的意义作为单独的组。

如果数据包括复制,或多个同一预测测量值,那么方差分析分区的错误SumSq复制,其余的部分。相应的F统计数据是测试lack-of-fit通过比较与模范自由模型残差方差估计计算复制。

方差分析表分解模型。

方差分析(lm)

ans =4×5表SumSq DF MeanSq F pValue ________ __ ________ _____ __________ x1 563.18 - 1 563.18 33.667 9.8742 52.187 e-08 x2 1 0.060046 52.187 3.1197 0.08078 x3 1 0.060046 0.0035895 0.95236 1488.8 89 16.728错误

这方差分析显示器显示如下:

第一列,包括在模型中。
SumSq——平方误差的总和为每个术语除了常数。
DF——自由度。在这个例子中,DF模型中的每一项和1吗 $n - - - - - - p$ 误差项的 $n$ 是观测的数量,和 $p$ 在模型中系数的数量,包括拦截。例如,DF这个模型的误差项是93 - 4 = 89。如果任何一个变量在模型中是类别变量,DF创建的指标变量的数量为变量的类别(类别数- 1)。
MeanSq——为每个学期均方误差。请注意,MeanSq = SumSq / DF。例如,误差项的均方误差为1488.8/89 = 16.728。
F- - - - - -F为每个系数值。的F的均方值的比例是每学期和均方误差,也就是说,F = MeanSq (xi) / MeanSq(错误)。每一个F统计有一个F分布,分子自由度,DF值对应的项,分母自由度, $n - - - - - - p$ 。 $n$ 是观测的数量,和 $p$ 是在模型中系数的数量。在这个例子中,每个F统计有一个 $F_{(1, 89)}$ 分布。
pValue- - - - - -p值为每一个假设检验相应的系数项的线性模型。例如,p价值的F统计系数x2是0.08078,不是重要的在5%的显著性水平给定模型中的其他条款。

系数的置信区间

显示系数的置信区间。

coefCI (lm)

ans =4×240.2702 55.6833 -0.0088 -0.0043 -0.0913 0.0054 -0.3957 0.3726

在每一行的值上下置信区间,分别为默认95%置信区间系数。例如,第一行显示了较低的上限,40.2702和55.6833,拦截, $β_{0}$ 。同样地,第二行显示了限制 $β_{1}$ 等等。置信区间提供精确的测量线性回归系数的估计。一个 $100 (1 - - - - - - α) %$ 置信区间给出相应的回归系数范围将在一起 $100 (1 - - - - - - α) %$ 的信心。

你也可以改变的信心水平。找到系数的99%置信区间。

0.01 coefCI (lm)

ans =4×237.7677 58.1858 -0.0095 -0.0036 -0.1069 0.0211 -0.5205 0.4973

假设检验在系数

测试零假设,所有的预测变量系数等于零和替代假说,至少其中之一是不同于零。

[p F d] = coefTest (lm)

p = 7.3816 e-27

F = 89.9874

d = 3

在这里,coefTest执行一个F以及假设所有回归系数(除了拦截)为零和至少一个不同于零,这实质上是对模型的假设。它返回 $p$ ,p值,F,F统计,d,分子的自由度。的F统计和p价值是一样的的线性回归和显示方差分析的模型。自由度是4 - 1 = 3,因为有四个预测因子(包括拦截)的模型。

现在,执行一个假设检验在第一和第二的系数预测变量。

H = [0 1 0 0;0 0 1 0);[p F d] = coefTest (lm, H)

p = 5.1702 e-23

F = 96.4873

d = 2

分子的自由度是系数测试的数量,在这个例子中是2。结果表明,至少有一个 $β_{2}$ 和 $β_{3}$ 不同于零。

另请参阅

LinearModel|fitlm|stepwiselm|方差分析