主要内容

预测

类:GeneralizedLinearMixedModel

预测广义线性混合效应模型的响应

描述

例子

ypred=预测(glme返回响应的预测条件方式,ypred,使用原始预测值拟合广义线性混合效应模型glme

例子

ypred=预测(glmetblnew中指定的新预测器值返回预测的条件方法tblnew

如果一个分组变量tblnew有原始数据中没有的水平,那么分组变量的随机效应不会对“条件”在观察到分组变量有新的水平时进行预测。

ypred=预测(___名称,值使用一个或多个指定的附加选项返回响应的预测条件方法名称,值对参数。例如,您可以指定置信级别、同时置信范围或只指定固定效果的贡献。您可以使用前面语法中的任何输入参数。

ypredypredCI) =预测(___也返回95%的点置信区间,ypredCI,每个预测值。

ypredypredCIDF) =预测(___还返回了自由度,DF,用于计算置信区间。

输入参数

全部展开

广义线性混合效应模型,指定为GeneralizedLinearMixedModel对象。有关此对象的属性和方法,请参见GeneralizedLinearMixedModel

新的输入数据,其中包括响应变量、预测变量和分组变量,指定为表或数据集数组。预测变量可以是连续变量或分组变量。tblnew必须有相同的变量作为原始表或数据集数组使用fitglme拟合广义线性混合效应模型glme

名称-值对的观点

指定可选的逗号分隔的对名称,值参数。的名字参数名和价值为对应值。的名字必须出现在引号内。可以以任意顺序指定多个名称和值对参数Name1, Value1,…,的家

显著性级别,指定为逗号分隔的对“α”和范围为[0,1]的标量值。对于值α,置信水平是100 × (1 - α)%。

例如,对于99%置信区间,可以如下所示指定置信级别。

例子:“阿尔法”,0.01

数据类型:|

条件预测的指示符,指定为逗号分隔对,由“条件”下面是其中之一。

价值 描述
真正的 固定效应和随机效应的贡献(条件)
仅来自固定效应的贡献(边际)

例子:“有条件的”,假的

近似自由度的计算方法,指定为由逗号分隔的对组成“DFMethod”下面是其中之一。

价值 描述
“残留” 自由度值设为常数,等于n- - - - - -p,在那里n观察的次数是多少p是固定效果的数量。
“没有” 自由度设为无穷大。

例子:“DFMethod”、“没有”

模型偏移量,指定为长度标量值的向量,在那里行数是多少tblnew.偏移量用作附加预测器,其系数值固定为1

置信范围的类型,指定为逗号分隔对,由“同时”,要么真正的

  • 如果“同时”,然后预测计算非同时置信限。

  • 如果“同时”真正的预测返回同时的置信界限。

例子:“同步”,真的

输出参数

全部展开

预测的响应,作为向量返回。如果“条件”名称-值对参数指定为真正的ypred包含对给定随机效应的响应的条件均值的预测。条件预测包括来自固定和随机效应的贡献。边际预测只包括来自固定效应的贡献。

为了计算边际预测,预测计算条件预测,但用零向量代替随机效应的经验贝叶斯预测器(ebp)。

预测值的逐点置信区间,作为两列矩阵返回。第一列ypredCI包含下界,第二列包含上界。默认情况下,ypredCI包含预测的95%非同时置信区间。属性可以更改置信级别α名称-值对参数,并使用同时名称-值对的论点。

在拟合GLME模型时使用fitglme及一种最大似然拟合方法(“拉普拉斯”“ApproximateLaplace”),预测以估计的协方差参数和观测响应为条件,使用预测条件均方误差(CMSEP)方法计算置信区间。或者,您可以将置信区间解释为基于估计协方差参数和观察到的响应的近似贝叶斯可信区间。

在拟合GLME模型时使用fitglme其中一种伪似然拟合方法(“MPL”“REMPL”),预测在拟合线性混合效应模型的基础上,由最终的伪似然迭代进行计算。

用于计算置信区间的自由度,以向量或标量值的形式返回。

  • 如果“同时”,然后DF是一个向量。

  • 如果“同时”真正的,然后DF为标量值。

例子

全部展开

加载示例数据。

负载生产商

这些模拟数据来自一家在世界各地运营50家工厂的制造公司,每个工厂运行一个批处理流程来创建成品。该公司想要减少每批的缺陷数量,所以它开发了一种新的制造工艺。为了测试新工艺的有效性,该公司随机挑选了20家工厂参与实验:10家工厂实施了新工艺,而其他10家继续运行旧工艺。在20家工厂中,公司分别运行了5批(共100批),并记录了以下数据:

  • 标志,以指示批是否使用新工艺(newprocess

  • 每批处理所需时间(以小时计)(时间

  • 批次的温度,以摄氏度计(临时

  • 表示供应商的分类变量(一个B,或C)所使用的该批化学品(供应商

  • 批次缺陷数(缺陷

数据还包括time_devtemp_dev,分别表示时间和温度与20摄氏度下3小时的工艺标准的绝对偏差。

拟合一个广义线性混合效应模型使用newprocesstime_devtemp_dev,供应商固定后果预测。包括一个随机效应术语,用于分组的拦截工厂,以考虑由于工厂特定差异可能存在的质量差异。响应变量缺陷的泊松分布,该模型的适当链接函数是对数。用拉普拉斯拟合方法估计系数。指定虚拟变量编码为“影响”,所以哑变量系数和为0。

缺陷的数量可以用泊松分布来建模:

缺陷 j 泊松 μ j

这与广义线性混合效应模型相对应

日志 μ j β 0 + β 1 newprocess j + β 2 时间 _ dev j + β 3. 临时 _ dev j + β 4 供应商 _ C j + β 5 供应商 _ B j + b

在哪里

  • 缺陷 j 在工厂生产的批次中是否观察到缺陷的数量 在批处理 j

  • μ j 平均缺陷数是否与工厂相应 ( 1 2 2 0 在批处理) j ( j 1 2 5 ).

  • newprocess j 时间 _ dev j , 临时 _ dev j 每个变量的测量值是否与工厂相对应 在批处理 j .例如, newprocess j 指示该批次是否由工厂生产 在批处理 j 使用新方法

  • 供应商 _ C j 供应商 _ B j 是否使用效应(sum-to-zero)编码的虚拟变量表明是否公司CB,分别为工厂生产的批次提供工艺用化学品 在批处理 j

  • b N 0 σ b 2 每个工厂都有随机效果拦截吗 这就解释了工厂特有的质量差异。

glme = fitglme(生产商,'缺陷~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'“分布”“泊松”“链接”“日志”“FitMethod”“拉普拉斯”“DummyVarCoding”“影响”);

在原始设计值上预测响应值。显示前10个预测以及观察到的响应值。

ypred =预测(glme);[ypred (1:10), mfr.defects (1:10)]
ans =10×24.9883 6.0000 5.9423 7.0000 5.1318 6.0000 5.6295 5.0000 5.3499 6.0000 5.2134 5.0000 4.6430 4.0000 4.5342 4.0000 5.3903 9.0000 4.6529 4.0000

第1列包含在原始设计值上的预测响应值。第2列包含观察到的响应值。

加载示例数据。

负载生产商

这些模拟数据来自一家在世界各地运营50家工厂的制造公司,每个工厂运行一个批处理流程来创建成品。该公司想要减少每批的缺陷数量,所以它开发了一种新的制造工艺。为了测试新工艺的有效性,该公司随机挑选了20家工厂参与实验:10家工厂实施了新工艺,而其他10家继续运行旧工艺。在20家工厂中,公司分别运行了5批(共100批),并记录了以下数据:

  • 标志,以指示批是否使用新工艺(newprocess

  • 每批处理所需时间(以小时计)(时间

  • 批次的温度,以摄氏度计(临时

  • 表示供应商的分类变量(一个B,或C)所使用的该批化学品(供应商

  • 批次缺陷数(缺陷

数据还包括time_devtemp_dev,分别表示时间和温度与20摄氏度下3小时的工艺标准的绝对偏差。

拟合一个广义线性混合效应模型使用newprocesstime_devtemp_dev,供应商固定后果预测。包括一个随机效应术语,用于分组的拦截工厂,以考虑由于工厂特定差异可能存在的质量差异。响应变量缺陷的泊松分布,该模型的适当链接函数是对数。用拉普拉斯拟合方法估计系数。指定虚拟变量编码为“影响”,所以哑变量系数和为0。

缺陷的数量可以用泊松分布来建模:

缺陷 j 泊松 μ j

这与广义线性混合效应模型相对应

日志 μ j β 0 + β 1 newprocess j + β 2 时间 _ dev j + β 3. 临时 _ dev j + β 4 供应商 _ C j + β 5 供应商 _ B j + b

在哪里

  • 缺陷 j 在工厂生产的批次中是否观察到缺陷的数量 在批处理 j

  • μ j 平均缺陷数是否与工厂相应 ( 1 2 2 0 在批处理) j ( j 1 2 5 ).

  • newprocess j 时间 _ dev j , 临时 _ dev j 每个变量的测量值是否与工厂相对应 在批处理 j .例如, newprocess j 指示该批次是否由工厂生产 在批处理 j 使用新方法

  • 供应商 _ C j 供应商 _ B j 是否使用效应(sum-to-zero)编码的虚拟变量表明是否公司CB,分别为工厂生产的批次提供工艺用化学品 在批处理 j

  • b N 0 σ b 2 每个工厂都有随机效果拦截吗 这就解释了工厂特有的质量差异。

glme = fitglme(生产商,'缺陷~ 1 + newprocess + time_dev + temp_dev + supplier + (1|factory)'“分布”“泊松”“链接”“日志”“FitMethod”“拉普拉斯”“DummyVarCoding”“影响”);

在原始设计值上预测响应值。

ypred =预测(glme);

的前10行复制一个新表生产商tblnew

: tblnew =生产商(1:10);

前10行生产商包括工厂1和工厂2从试验1到试验5收集的数据。两家工厂在实验过程中都使用了旧工艺,所以newprocess = 0所有10个观察结果。

改变newprocess1对于tblnew

tblnew。newprocess = ones(height(tblnew),1);

使用。计算预测的响应值和非同时的99%置信区间tblnew.显示预测值的前10行tblnew,预测值基于生产商,以及观测到的响应值。

[ypred_new, ypredCI] =预测(glme tblnew,“α”, 0.01);[ypred_new ypred (1:10), mfr.defects (1:10)]
ans =10×33.4536 4.9883 6.0000 4.1142 5.9423 7.0000 3.5530 5.1318 6.0000 3.8976 5.6295 5.0000 3.7040 5.3499 6.0000 3.6095 5.2134 5.0000 3.2146 4.6430 4.0000 3.1393 4.5342 4.0000 3.7320 5.3903 9.0000 3.2214 4.6529 4.0000

第1列包含基于中的数据的预测响应值tblnew,在那里newprocess = 1.第2列包含基于中原始数据的预测响应值生产商,在那里newprocess = 0.第3列包含观察到的响应值生产商.基于这些结果,如果所有其他预测器保持其原始值,那么在使用新工艺时,预测的缺陷数量似乎更小。

显示与新的预测响应值对应的行1到行10的99%置信区间。

ypredCI (1:10, 1:2)
ans =10×21.6983 7.0235 1.9191 8.8201 1.8735 6.7380 2.0149 7.5395 1.9034 7.2079 1.8918 6.8871 1.6776 6.1597 1.5404 6.3976 1.9574 7.1154 1.6892 6.1436

参考文献

[1]布斯,j·g·j·p·霍伯特。广义线性混合模型预测的标准误差美国统计协会杂志, 1998年第93卷,第262-272页。