主要内容

具有交互效应的线性回归

建立并分析具有交互效应的线性回归模型,并解释结果。

加载样例数据。

负载医院

若要只保留血压的第一列,请将数据存储在表中。

tbl =表(医院。性别,医院。年龄,医院。体重,医院。吸烟者,医院。血压(:,1),...“VariableNames”, {“性”“年龄”“重量”“抽烟”“血压”});

执行逐步线性回归。

对于初始模型,使用包含所有项及其成对交互的完整模型。

MDL = stepwiselm(tbl,“互动”
1.去除性别:吸烟者,FStat = 0.050738, pValue = 0.8223减重:吸烟者,FStat = 0.07758, pValue = 0.78124年龄:体重,FStat = 1.9717, pValue = 0.16367剔除性别:年龄,FStat = 0.32389, pValue = 0.57067年龄:吸烟者,FStat = 2.4939, pValue = 0.11768
mdl =线性回归模型:血压~ 1 +年龄+吸烟者+性别*体重估计系数:估计SE tStat pValue ________ ________ _______ __________ (Intercept) 133.17 10.337 12.883 1.76e-22 Sex_Male -35.269 17.524 -2.0126 0.047015 Age -0.1393 0.067664 1.712 0.090198 Weight -0.1393 0.080211 -1.7367 0.085722 Smoker_1 9.8307 1.0229 9.6102 1.2391e-15 Sex_Male:Weight 0.2341 0.11192 2.0917 0.039162观察次数:100,误差自由度:944.72 r -平方:0.53,调整r -平方:0.505 f -统计量vs.常数模型:21.2,p值= 4e-14

最后的公式形式是血压~ 1 +年龄+吸烟者+性别*体重.这个模型包括所有四种主要效应(年龄、吸烟者、性别、体重)以及它们之间的双向交互作用而且重量.这个模型对应于

B P β 0 + β 一个 X 一个 + β 年代 年代 + β 年代 年代 + β W X W + β 年代 W X W 年代 + ϵ

在哪里

  • B P 是血压

  • β 是系数

  • 年代 是吸烟的指标变量; 年代 1 表明病人吸烟,而 年代 0 提示非吸烟患者

  • 年代 是性别的指标变量; 年代 1 表明是男性病人,而 年代 0 提示为女性患者

  • X 一个 年龄变量

  • X W 重量变量

  • ϵ 是误差项

下表显示了每种性别和吸烟组合的拟合线性模型。

年代 年代 线性 模型 1 (吸烟) 1 (男性) B P β 0 + β 年代 + β 年代 + β 一个 X 一个 + β W + β 年代 W X W B P ˆ 1 0 7 5 6 1 7 + 0 1 1 5 8 4 X 一个 + 0 1 1 8 2 6 X W 1 (吸烟) 0 (女) B P β 0 + β 年代 + β 一个 X 一个 + β W X W B P ˆ 1 4 3. 0 0 0 7 + 0 1 1 5 8 4 X 一个 - 0 1 3. 9 3. X W 0 (不抽烟) 1 (男性) B P β 0 + β 年代 + β 一个 X 一个 + β W + β 年代 W X W B P ˆ 9 7 9 0 1 + 0 1 1 5 8 4 X 一个 + 0 1 1 8 2 6 X W 0 (不抽烟) 0 (女) B P β 0 + β 一个 X 一个 + β W X W B P ˆ 1 3. 3. 1 7 + 0 1 1 5 8 4 X 一个 - 0 1 3. 9 3. X W

从这些模型中可以看出, β 年代 而且 β 年代 显示当指示器变量取值为1时与取值为0时响应函数的截距的变化。 β 年代 W 但是,当性别指标变量取值为1时,与取值为0时,显示了Weight变量对响应变量的影响。的方法可以探索最终模型中的主要和交互效应LinearModel类如下。

地块预测切片图。

图plotSlice (mdl)

{

这幅图显示了所有预测变量的主要影响。每个面板上的绿线显示了当所有其他预测变量保持不变时,响应变量作为预测变量的函数的变化。例如,对于一个37.5岁的吸烟男性患者,在其他条件不变的情况下,预期血压会随着患者体重的增加而升高。

每个面板中的红色虚线曲线表示预测响应值的95%置信界限。

每个面板中的水平虚线显示了与垂直虚线对应的预测变量的特定值的预测响应。您可以拖动这些线以获得其他预测器值的预测响应值,如下所示。

例如,当患者为女性,不吸烟,年龄40.3788,体重139.9545磅时,响应变量的预测值为118.3497。方括号中的值[114.621,122.079]表示估计响应的95%置信区间的下限和上限。注意,对于不吸烟的女性患者,在其他条件保持不变的情况下,预期血压会随着体重的增加而降低。

绘制主要效果。

plotEffects (mdl)

图中包含一个axes对象。axis对象包含6个类型为line的对象。

这张图展示了主要的效果。圆圈表示影响的大小,蓝线表示主要影响的置信上限和下限。例如,在其他条件不变的情况下,与不吸烟者相比,吸烟者的预期血压会增加10个单位。同样,在其他预测指标保持不变的情况下,男性的预期血压比女性增加约两个单位。年龄从25岁增加到50岁,预期血压会增加4个单位,而体重从111增加到202,在其他因素保持不变的情况下,预期血压会降低4个单位。

情节交互效果。

图plotInteraction (mdl,“性”“重量”

图中包含一个axes对象。标题为Interaction of Sex and Weight的axis对象包含11个类型为line的对象。

这个图显示了在一个因素的变化的影响下,另一个因素的值是固定的。

在解释交互效果时要谨慎。当对所有因素组合没有足够的数据或数据高度相关时,可能很难确定改变一个因素而保持另一个因素不变的交互效应。在这种情况下,估计的相互作用效应是从数据中推断出来的。

蓝色圆圈显示特定术语的主要效果,如主效果图所示。红色的圆圈显示了一项的变化对另一项的固定值的影响。例如,在这个图的下半部分,红色的圆圈分别显示了体重变化对女性和男性患者的影响。你可以看到,女性的体重从111磅增加到202磅会导致预期血压下降约14个单位,而男性患者的体重增加同样数量会导致预期血压上升约5个单位,同样,在其他预测指标保持不变的情况下。

情节预测效果。

图plotInteraction (mdl,“性”“重量”“预测”

图中包含一个axes对象。标题为Interaction of Sex and Weight的axis对象包含3个类型为line的对象。这些物品代表性别、女性、男性。

这幅图显示了当另一个预测变量保持不变时,改变一个变量的效果。在本例中,最后一个图显示了当变量性别固定为男性和女性时,反应变量血压作为体重的函数。男性和女性的线是交叉的,这表明体重和性别之间有很强的相互作用。你可以看到,期望血压随着男性患者体重的增加而增加,但随着女性患者体重的增加而降低。

另请参阅

|||||

相关的话题