在线性回归中,f统计量是方差分析(ANOVA)方法检验模型或模型中各成分的显著性的检验统计量。
线性模型输出显示中的F统计量是用于测试模型统计显著性的测试统计量。中的F统计量值方差分析
显示用于评估模型中的术语或组件的重要性。
在得到一个合适的模型后,mdl
,使用菲特姆
或stepwiselm
,您可以:
找到f统计量与常数模型
在输出显示或通过使用
显示(mdl)
显示使用的模型的方差分析
方差分析(mdl,“汇总”)
获得除常数项外的各成分的f统计量值
方差分析(mdl)
方差分析
方法LinearModel
班这个例子展示了如何使用F统计量评估模型的拟合和回归系数的显著性。
加载示例数据。
负载医院tbl=表格(医院、年龄、医院、体重、医院、吸烟者、医院、血压(:,1),...“变化无常”,{“年龄”,“重量”,“抽烟”,“血压”}); tbl.吸烟者=分类(tbl.吸烟者);
拟合线性回归模型。
mdl=fitlm(待定,“血压~年龄*体重+吸烟者+体重^2”)
mdl=线性回归模型:血压~1+吸烟者+年龄*体重+体重^2估计系数:估计统计值(截距)168.02 27.694 6.067 2.7149e-08年龄0.079569 0.39861 0.19962 0.84221体重-0.690440.3435-2.0099 0.047305吸烟者_真实9.8027 1.0256 9.5584 1.5969e-15年龄:体重0.00021796 0.0025558 0.086294 0.93142体重^2 0.0021877 0.0011037 1.9822 0.050375观察次数:100,误差自由度:94平方根误差:4.7328,调整后的R平方:0.503 F统计与常数模型:21,p值=4.81e-14
线性拟合与常数模型的F统计量为21,其中P4.81 e-14的价值。模型在5%显著水平下显著。r平方值为0.528意味着该模型解释了响应中53%的可变性。可能有其他预测(解释)变量没有包括在当前的模型中。
显示已安装模型的方差分析表。
方差分析(mdl,“摘要”)
ans =5×5表SumSq DF MeanSq F pValue ______ __ ______ ______ __________ 总99 4461.2 45.062 4.8099 470.9 - 21.012 2354.5 - 5 e-14模型。线性2263.3 3 754.42 33.663 7.2417e-15。非线性91.248 2 45.624 2.0358 0.1363残差2106.6 94 22.411
此显示将模型中的可变性分为线性项和非线性项。因为有两个非线性项(体重^ 2
以及它们之间的相互作用重量
和年龄
)中的非线性自由度DF
列为2。模型中有三个线性项(一个吸烟者
指标变量,重量
,年龄
).对应的f统计量F
列用于检验作为单独组的线性和非线性项的显著性。
当存在重复观测时,残差项也分为两部分;第一个是由于缺乏拟合而产生的误差,第二个是独立于模型的纯误差,由复制观测得到。在这种情况下,f统计量用于检验拟合的不足,即拟合是否充分。但是,在这个例子中,没有重复的观察。
显示模型术语的方差分析表。
方差分析(mdl)
ans =6×5表SumSq DF MeanSq F pValue __________ ________ _________ __________年龄62.991 1 62.991 2.8107 0.096959体重0.064104 1 0.064104 0.0028604 0.95746吸烟者2047.5 1 2047.5 91.363 1.5969e-15年龄:体重0.16689 1 0.16689 0.0074466 0.93142体重^2 88.057 1 88.057 3.9292 0.050375错误2106.6 94 22.411
这个展示将方差分析表分解为模型项。对应的f统计量F
列评估每一项的统计显著性。例如,f测试吸烟者
测试指标变量的系数是否为吸烟者
与零不同。也就是说,F检验决定了吸烟者是否对吸烟有显著影响血压
. 每个模型项的自由度为相应F试验的分子自由度。所有术语都有一个自由度。对于分类变量,自由度是指指标变量的数量。吸烟者
只有一个指示变量,因此它也有一个自由度。
在线性回归中T-统计有助于对回归系数进行推断。回归系数的假设检验我检验零假设它等于零——意味着对应的项不显著——与系数不等于零的备用假设。
关于系数的假设检验我,
H0:β我= 0
H1.:β我≠ 0,
这个T-统计数字如下:
哪里东南方(B我)是估计系数的标准误差B我.
在得到一个合适的模型后,mdl
,使用菲特姆
或stepwiselm
,您可以:
求系数估计值,估计值的标准误差(东南方
),以及T-相应系数的假设检验的统计值(塔特
)的输出显示。
要求显示使用
显示(mdl)
这个例子展示了如何使用t-statistic检验回归系数的显著性。
加载样本数据并拟合线性回归模型。
负载哈尔德mdl=fitlm(成分、热量)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue ________ _______ ________ ________ ( 拦截x1) 62.405 70.071 0.8906 0.39913 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.10191 0.75471 0.13503 0.89592 0.72379 0.70486 0.5009 x3 x4 -0.14406 0.70905 -0.20317 0.84407数量的观察:13、误差自由度:8均方根误差:2.45 r平方:0.982,校正r平方:0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07
你可以看到,对于每个系数,tStat=估计值/SE
.的
-假设测试的值在pValue
每列
-对模型中其他术语的每个术语的显著性进行统计检验。根据这些结果,在5%的显著性水平上,没有一个系数是显著的,尽管模型的R平方值在0.97时非常高。这通常表明预测变量之间可能存在多重共线性。
使用逐步回归确定模型中包含哪些变量。
负载哈尔德mdl = stepwiselm(成分、热)
1.加上x4,FStat=22.7985,pValue=0.000576232 2。加上x1,FStat=108.2239,pValue=1.105281e-06
mdl =线性回归模型:y ~ 1 + x1 + x4估计系数:估计SE tStat pValue ________ ________ _______ __________ ( 拦截)103.1 2.124 48.54 3.3243 e-13 x1 e-06 x4 -0.61395 0.048645 -12.621 1.1053 1.44 0.13842 10.403 1.8149 e-07数量的观察:13日误差自由度:10根均方误差:2.73平方:0.972,调整后的R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08
在这个例子中,stepwiselm
从常量模型(默认)开始,并使用前向选择来增量添加x4
和x1
.最终模型中的每个预测变量都是有意义的,因为另一个变量也在模型中。当模型中没有任何其他预测变量显著改善时,算法停止。有关逐步回归的详细信息,请参见stepwiselm
.
LinearModel
|菲特姆
|stepwiselm
|方差分析
|科菲奇
|同等