主要内容

F统计量与t统计量

F统计量

意图

在线性回归中,f统计量是方差分析(ANOVA)方法检验模型或模型中各成分的显著性的检验统计量。

定义

线性模型输出显示中的F统计量是用于测试模型统计显著性的测试统计量。中的F统计量值方差分析显示用于评估模型中的术语或组件的重要性。

如何

在得到一个合适的模型后,mdl,使用菲特姆stepwiselm,您可以:

  • 找到f统计量与常数模型在输出显示或通过使用

    显示(mdl)
  • 显示使用的模型的方差分析

    方差分析(mdl,“汇总”)
  • 获得除常数项外的各成分的f统计量值

    方差分析(mdl)
    具体操作请参见方差分析方法LinearModel

用F统计量评估模型的拟合度

这个例子展示了如何使用F统计量评估模型的拟合和回归系数的显著性。

加载示例数据。

负载医院tbl=表格(医院、年龄、医院、体重、医院、吸烟者、医院、血压(:,1),...“变化无常”,{“年龄”,“重量”,“抽烟”,“血压”}); tbl.吸烟者=分类(tbl.吸烟者);

拟合线性回归模型。

mdl=fitlm(待定,“血压~年龄*体重+吸烟者+体重^2”)
mdl=线性回归模型:血压~1+吸烟者+年龄*体重+体重^2估计系数:估计统计值(截距)168.02 27.694 6.067 2.7149e-08年龄0.079569 0.39861 0.19962 0.84221体重-0.690440.3435-2.0099 0.047305吸烟者_真实9.8027 1.0256 9.5584 1.5969e-15年龄:体重0.00021796 0.0025558 0.086294 0.93142体重^2 0.0021877 0.0011037 1.9822 0.050375观察次数:100,误差自由度:94平方根误差:4.7328,调整后的R平方:0.503 F统计与常数模型:21,p值=4.81e-14

线性拟合与常数模型的F统计量为21,其中P4.81 e-14的价值。模型在5%显著水平下显著。r平方值为0.528意味着该模型解释了响应中53%的可变性。可能有其他预测(解释)变量没有包括在当前的模型中。

显示已安装模型的方差分析表。

方差分析(mdl,“摘要”)
ans =5×5表SumSq DF MeanSq F pValue  ______ __ ______ ______ __________ 总99 4461.2 45.062 4.8099 470.9 - 21.012 2354.5 - 5 e-14模型。线性2263.3 3 754.42 33.663 7.2417e-15。非线性91.248 2 45.624 2.0358 0.1363残差2106.6 94 22.411

此显示将模型中的可变性分为线性项和非线性项。因为有两个非线性项(体重^ 2以及它们之间的相互作用重量年龄)中的非线性自由度DF列为2。模型中有三个线性项(一个吸烟者指标变量,重量,年龄).对应的f统计量F列用于检验作为单独组的线性和非线性项的显著性。

当存在重复观测时,残差项也分为两部分;第一个是由于缺乏拟合而产生的误差,第二个是独立于模型的纯误差,由复制观测得到。在这种情况下,f统计量用于检验拟合的不足,即拟合是否充分。但是,在这个例子中,没有重复的观察。

显示模型术语的方差分析表。

方差分析(mdl)
ans =6×5表SumSq DF MeanSq F pValue __________ ________ _________ __________年龄62.991 1 62.991 2.8107 0.096959体重0.064104 1 0.064104 0.0028604 0.95746吸烟者2047.5 1 2047.5 91.363 1.5969e-15年龄:体重0.16689 1 0.16689 0.0074466 0.93142体重^2 88.057 1 88.057 3.9292 0.050375错误2106.6 94 22.411

这个展示将方差分析表分解为模型项。对应的f统计量F列评估每一项的统计显著性。例如,f测试吸烟者测试指标变量的系数是否为吸烟者与零不同。也就是说,F检验决定了吸烟者是否对吸烟有显著影响血压. 每个模型项的自由度为相应F试验的分子自由度。所有术语都有一个自由度。对于分类变量,自由度是指指标变量的数量。吸烟者只有一个指示变量,因此它也有一个自由度。

t统计量

意图

在线性回归中T-统计有助于对回归系数进行推断。回归系数的假设检验检验零假设它等于零——意味着对应的项不显著——与系数不等于零的备用假设。

定义

关于系数的假设检验,

H0:β= 0

H1.:β≠ 0,

这个T-统计数字如下:

T = B s E ( B ) ,

哪里东南方(B)是估计系数的标准误差B

如何

在得到一个合适的模型后,mdl,使用菲特姆stepwiselm,您可以:

  • 求系数估计值,估计值的标准误差(东南方),以及T-相应系数的假设检验的统计值(塔特)的输出显示。

  • 要求显示使用

    显示(mdl)

使用t统计量评估回归系数的显著性

这个例子展示了如何使用t-statistic检验回归系数的显著性。

加载样本数据并拟合线性回归模型。

负载哈尔德mdl=fitlm(成分、热量)
mdl =线性回归模型:y ~ 1 + x1 + x2 + x3 + x4估计系数:估计SE tStat pValue  ________ _______ ________ ________ ( 拦截x1) 62.405 70.071 0.8906 0.39913 1.5511 0.74477 2.0827 0.070822 x2 0.51017 0.10191 0.75471 0.13503 0.89592 0.72379 0.70486 0.5009 x3 x4 -0.14406 0.70905 -0.20317 0.84407数量的观察:13、误差自由度:8均方根误差:2.45 r平方:0.982,校正r平方:0.974 F-statistic vs. constant model: 111, p-value = 4.76e-07

你可以看到,对于每个系数,tStat=估计值/SE.的 P -假设测试的值在pValue每列 T -对模型中其他术语的每个术语的显著性进行统计检验。根据这些结果,在5%的显著性水平上,没有一个系数是显著的,尽管模型的R平方值在0.97时非常高。这通常表明预测变量之间可能存在多重共线性。

使用逐步回归确定模型中包含哪些变量。

负载哈尔德mdl = stepwiselm(成分、热)
1.加上x4,FStat=22.7985,pValue=0.000576232 2。加上x1,FStat=108.2239,pValue=1.105281e-06
mdl =线性回归模型:y ~ 1 + x1 + x4估计系数:估计SE tStat pValue  ________ ________ _______ __________ ( 拦截)103.1 2.124 48.54 3.3243 e-13 x1 e-06 x4 -0.61395 0.048645 -12.621 1.1053 1.44 0.13842 10.403 1.8149 e-07数量的观察:13日误差自由度:10根均方误差:2.73平方:0.972,调整后的R-Squared: 0.967 F-statistic vs. constant model: 177, p-value = 1.58e-08

在这个例子中,stepwiselm从常量模型(默认)开始,并使用前向选择来增量添加x4x1.最终模型中的每个预测变量都是有意义的,因为另一个变量也在模型中。当模型中没有任何其他预测变量显著改善时,算法停止。有关逐步回归的详细信息,请参见stepwiselm

另见

|||||

相关话题