主要内容

线性回归与交互效应

构建并分析一个具有交互作用的线性回归模型,并解释结果。

加载样例数据。

负载医院

为了只保留血压的第一列,将数据存储在一个表中。

tbl = table(医院。性别,医院。年龄,医院。体重,医院。吸烟者,医院。血压(:,1),...“VariableNames”, {“性”“年龄”“重量”“抽烟”“血压”});

执行逐步线性回归。

对于初始模型,使用包含所有项及其成对交互的完整模型。

MDL =逐步的(tbl,“互动”
1.去除性别:吸烟者,FStat = 0.050738, pValue = 0.82233.去除体重:吸烟者,FStat = 0.07758, pValue = 0.78124去除年龄:体重,FStat = 1.9717, pValue = 0.16367去除性别:年龄,FStat = 0.32389, pValue = 0.57067去除年龄:吸烟者,FStat = 2.4939, pValue = 0.11768
mdl =线性回归模型:血压~ 1 +年龄+吸烟者+性别*体重估计系数:估计SE tStat pValue ________ ________ _______ __________(截量)133.17 10.337 12.883 1.76e-22性别男性-35.269 17.524 -2.0126 0.047015年龄0.11584 0.067664 1.712 0.090198体重-0.1393 0.080211 -1.7367 0.085722吸烟者_1 9.8307 1.0229 9.6102 1.2391e-15性别男性:体重0.2341 0.11192 2.0917 0.039162观测数:100,误差自由度:94均方根误差:4.72 r平方:0.53,调整后r平方:0.505 f统计量vs常数模型:21.2,p值= 4e-14

最后的公式形式的模型是血压~ 1 +年龄+吸烟+性别*体重.该模型包括所有四个主要影响因素(年龄、吸烟者、性别、体重)以及它们之间的双向交互作用而且重量.这个模型对应于

B P β 0 + β 一个 X 一个 + β 年代 年代 + β 年代 年代 + β W X W + β 年代 W X W 年代 + ϵ

在哪里

  • B P 是血压

  • β 系数是

  • 年代 是吸烟的指标变量; 年代 1 表明病人吸烟,而 年代 0 表明患者不吸烟

  • 年代 是性别的指标变量; 年代 1 表明患者为男性,而 年代 0 显示为女性患者

  • X 一个 年龄变量

  • X W 重量变量

  • ϵ 是误差项

下表显示了每个性别和吸烟组合的拟合线性模型。

年代 年代 线性 模型 1 (吸烟) 1 (男性) B P β 0 + β 年代 + β 年代 + β 一个 X 一个 + β W + β 年代 W X W B P ˆ 1 0 7 5 6 1 7 + 0 1 1 5 8 4 X 一个 + 0 1 1 8 2 6 X W 1 (吸烟) 0 (女) B P β 0 + β 年代 + β 一个 X 一个 + β W X W B P ˆ 1 4 3. 0 0 0 7 + 0 1 1 5 8 4 X 一个 - 0 1 3. 9 3. X W 0 (不抽烟) 1 (男性) B P β 0 + β 年代 + β 一个 X 一个 + β W + β 年代 W X W B P ˆ 9 7 9 0 1 + 0 1 1 5 8 4 X 一个 + 0 1 1 8 2 6 X W 0 (不抽烟) 0 (女) B P β 0 + β 一个 X 一个 + β W X W B P ˆ 1 3. 3. 1 7 + 0 1 1 5 8 4 X 一个 - 0 1 3. 9 3. X W

从这些模型可以看出, β 年代 而且 β 年代 显示当指标变量取值1时与取值0时响应函数的截距变化的多少。 β 年代 W ,但是,当性别指标变量取值1时,与取值0时相比,显示了Weight变量对响应变量的影响。的方法,可以探索最终模型中的主要效果和交互效果LinearModel按如下方式进行分类。

图预测切片图。

图plotSlice (mdl)

{

这张图显示了所有预测变量的主要影响。每个面板中的绿线表示当所有其他预测变量保持不变时,响应变量作为预测变量的函数的变化。例如,对于一名37.5岁的吸烟男性患者,在其他条件相同的情况下,预期血压会随着体重的增加而增加。

每个面板中的红色虚线曲线表示预测响应值的95%置信范围。

每个面板中的水平虚线显示了与垂直虚线对应的预测变量的特定值的预测响应。您可以拖动这些线以获得在其他预测值处的预测响应值,如下所示。

例如,当患者为女性,不吸烟,年龄40.3788,体重139.9545磅时,响应变量的预测值为118.3497。方括号中的值[114.621,122.079]表示估计响应的95%置信区间的下限和上限。请注意,对于不吸烟的女性患者,在其他条件不变的情况下,预期血压会随着体重的增加而降低。

情节主要效果。

plotEffects (mdl)

图中包含一个轴对象。axis对象包含6个line类型的对象。

这张图显示了主要效果。圆圈表示效应的大小,蓝线表示主效应的置信上限和下限。例如,在其他条件不变的情况下,与不吸烟者相比,吸烟者的预期血压会增加10个单位。在其他预测因素不变的情况下,男性的预期血压比女性增加约两个单位。年龄从25岁增加到50岁,预期血压会增加4个单位,而体重从111岁增加到202岁,在其他条件不变的情况下,预期血压会下降4个单位。

图交互效果。

图plotInteraction (mdl,“性”“重量”

图中包含一个轴对象。标题为“交互的性别和体重”的坐标轴对象包含11个类型行对象。

这张图显示了一个因素的变化所产生的影响,而另一个因素的值是固定的。

在解释交互效果时要谨慎。当所有因素组合的数据不足或数据高度相关时,可能很难确定改变一个因素而保持另一个因素不变的相互作用效果。在这种情况下,估计的相互作用效果是从数据中推断出来的。

蓝色圆圈显示特定术语的主要效果,如主效果图中所示。红色圆圈表示一个项的变化对另一个项的固定值的影响。例如,在这张图的下半部分,红色圆圈分别显示了女性和男性患者体重变化的影响。你可以看到,女性体重从111磅增加到202磅会导致预期血压下降约14个单位,而男性患者体重增加同样数量会导致预期血压增加约5个单位,同样是在其他预测因素保持不变的情况下。

情节预测效果。

图plotInteraction (mdl,“性”“重量”“预测”

图中包含一个轴对象。标题为“交互的性别和体重”的坐标轴对象包含3个类型行对象。这些物品代表性别、女性、男性。

这张图显示了当另一个预测变量保持不变时,改变一个变量的影响。在本例中,最后一个图显示了当变量性别固定为男性和女性时,响应变量血压作为体重的函数。男性和女性的线交叉,这表明体重和性别之间有很强的相互作用。你可以看到,预期血压随着男性患者体重的增加而增加,但随着女性患者体重的增加而降低。

另请参阅

|||||

相关的话题