主要内容

预测

类:GeneralizedLinearMixedModel

广义线性mixed-effects模型预测反应

描述

例子

ypred=预测(glme)返回响应的预测条件意味着,ypred使用原来的预测值用来适应广义线性mixed-effects模型glme

例子

ypred=预测(glme,tblnew)收益预测的条件意味着使用新的预测中指定的值tblnew

如果一个分组变量tblnew水平,原始数据,然后分组的随机效应变量不为“条件”预测在观察分组变量有新的水平。

ypred=预测(___,名称,值)返回响应的预测条件意味着使用由一个或多个指定附加选项名称,值对参数。例如,您可以指定置信度,同时置信界限),或只来自固定效果。您可以使用任何输入参数的前面的语法。

(ypred,ypredCI)=预测(___)逐点地置信区间也回报95%,ypredCI,为每个预测价值。

(ypred,ypredCI,DF)=预测(___)还返回自由度,DF用于计算置信区间。

输入参数

全部展开

广义线性mixed-effects模型,指定为一个GeneralizedLinearMixedModel对象。该对象的属性和方法,请参阅GeneralizedLinearMixedModel

新输入数据,包括响应变量,预测变量和分组变量数组,指定为一个表或数据集。预测变量可以是连续的或分组变量。tblnew必须有相同的变量与原始数据集表或数组中使用吗fitglme以适应广义线性mixed-effects模型glme

名称-值参数

指定可选的双参数作为Name1 = Value1,…,以=家,在那里的名字参数名称和吗价值相应的价值。名称-值参数必须出现在其他参数,但对的顺序无关紧要。

R2021a之前,用逗号来分隔每一个名称和值,并附上的名字在报价。

显著性水平,指定为逗号分隔组成的“α”和一个标量值的区间[0,1]。α值的置信水平为100×(1 -α)%。

例如,对于99%的置信区间,你可以指定如下的信心水平。

例子:“阿尔法”,0.01

数据类型:|

指标条件预测,指定为逗号分隔组成的“条件”和一个以下。

价值 描述
真正的 固定效应和随机效应的贡献(条件)
只有固定效应(边际)的贡献

例子:“有条件的”,假的

方法计算近似自由度,指定为逗号分隔组成的“DFMethod”和一个以下。

价值 描述
“残留” 自由度假定为常数和等于价值n- - - - - -p,在那里n是观察和的数量吗p是固定的数量影响。
“没有” 自由度设置为无穷大。

例子:“DFMethod”、“没有”

补偿模型,指定为一个标量值的向量,在那里的行数在吗tblnew。偏移量作为一个额外的预测,并固定在一个系数值1

类型的置信界限),指定为逗号分隔组成的“同时”,要么真正的

  • 如果“同时”,然后预测计算边界异时信心。

  • 如果“同时”真正的,预测返回同时置信界限。

例子:“同步”,真的

输出参数

全部展开

预测反应,作为一个向量返回。如果“条件”名称-值对参数被指定为真正的,ypred包含预测的条件意味着响应随机效应。有条件的预测包括固定和随机效应的贡献。只包括固定效应的贡献边际预测。

计算边际的预测,预测计算条件的预测,但替代品的零矢量的经验贝叶斯预测(ebp)的随机效应。

逐点预测的置信区间值,返回为一个两列的矩阵。第一列的ypredCI包含下界,第二列包含了上界。默认情况下,ypredCI包含95%的异时的置信区间预测。你可以改变使用的信心水平α名称-值对的论点,并使他们同时使用同时名称-值对的论点。

当拟合GLME模型使用fitglme和最大似然的方法(“拉普拉斯”“ApproximateLaplace”),预测使用条件计算置信区间的预测均方误差的条件(CMSEP)方法估计协方差参数和观察到的反应。或者,您可以解释近似条件的贝叶斯置信区间的置信区间估计的协方差参数和观察到的反应。

当拟合GLME模型使用fitglme的伪似然适合方法(“MPL”“REMPL”),预测基地上的计算拟合线性mixed-effects模型从最终伪似然迭代。

自由度用于计算置信区间,作为一个向量或一个标量值返回。

  • 如果“同时”,然后DF是一个向量。

  • 如果“同时”真正的,然后DF是一个标量值。

例子

全部展开

加载示例数据。

负载生产商

这个模拟的数据从一个制造公司,经营世界各地50个工厂,每个工厂运行一个批处理创建一个成品。公司想要减少缺陷的数量在每一批,所以发明了一种新的制造过程。为了测试新流程的有效性,公司随机选择20的工厂参加一个实验:十个工厂实施新的流程,而其他十继续运行旧的流程。在每个20家工厂,公司跑五个批次(100批次),记录以下数据:

  • 标志表明这批是否使用新工艺(newprocess)

  • 每一批处理时间,小时(时间)

  • 批处理的温度在摄氏度(临时)

  • 分类变量指示供应商(一个,B,或C)的化学用于批处理(供应商)

  • 批处理的缺陷数量(缺陷)

数据还包括time_devtemp_dev代表时间的绝对偏差和温度,分别从流程标准的3小时20摄氏度。

适合一个广义线性mixed-effects模型使用newprocess,time_dev,temp_dev,供应商固定后果预测。包括一个随机拦截分组的工厂,考虑到质量差异,可能存在由于factory-specific变化。响应变量缺陷泊松分布,适当的日志链接函数模型。使用拉普拉斯合适方法来估计系数。指定哑变量编码“影响”,所以哑变量系数之和为0。

缺陷的数量可以使用泊松分布模型:

缺陷 j 泊松 ( μ j )

这对应于广义线性mixed-effects模型

日志 ( μ j ) = β 0 + β 1 newprocess j + β 2 时间 _ dev j + β 3 临时 _ dev j + β 4 供应商 _ C j + β 5 供应商 _ B j + b ,

在哪里

  • 缺陷 j 是缺陷的数量在批量生产的工厂吗 在批处理 j

  • μ j 缺陷对应的平均数量是工厂吗 ( = 1 , 2 , , 2 0 在批处理) j ( j = 1 , 2 , , 5 )。

  • newprocess j , 时间 _ dev j , 临时 _ dev j 每个变量的测量是对应于工厂吗 在批处理 j 。例如, newprocess j 指示是否批量生产的工厂 在批处理 j 使用新工艺。

  • 供应商 _ C j 供应商 _ B j 虚拟变量,使用效果(总和为零)编码来表示是否公司吗CB分别提供工厂生产的批处理过程的化学物质 在批处理 j

  • b N ( 0 , σ b 2 ) 是一个随机拦截每个工厂吗 占factory-specific质量的变化。

glme = fitglme(生产商,的缺陷~ 1 + newprocess + time_dev + temp_dev +供应商+(1 |工厂)',“分布”,“泊松”,“链接”,“日志”,“FitMethod”,“拉普拉斯”,“DummyVarCoding”,“影响”);

预测响应值在原设计值。显示前十的预测和观察到的响应值。

ypred =预测(glme);[ypred (1:10), mfr.defects (1:10)]
ans =10×24.9883 6.0000 5.9423 7.0000 5.1318 6.0000 5.6295 5.0000 5.3499 6.0000 5.2134 5.0000 4.6430 4.0000 4.5342 4.0000 5.3903 9.0000 4.6529 4.0000

第一列包含预测响应值在原设计值。第2列包含观察到的响应值。

加载示例数据。

负载生产商

这个模拟的数据从一个制造公司,经营世界各地50个工厂,每个工厂运行一个批处理创建一个成品。公司想要减少缺陷的数量在每一批,所以发明了一种新的制造过程。为了测试新流程的有效性,公司随机选择20的工厂参加一个实验:十个工厂实施新的流程,而其他十继续运行旧的流程。在每个20家工厂,公司跑五个批次(100批次),记录以下数据:

  • 标志表明这批是否使用新工艺(newprocess)

  • 每一批处理时间,小时(时间)

  • 批处理的温度在摄氏度(临时)

  • 分类变量指示供应商(一个,B,或C)的化学用于批处理(供应商)

  • 批处理的缺陷数量(缺陷)

数据还包括time_devtemp_dev代表时间的绝对偏差和温度,分别从流程标准的3小时20摄氏度。

适合一个广义线性mixed-effects模型使用newprocess,time_dev,temp_dev,供应商固定后果预测。包括一个随机拦截分组的工厂,考虑到质量差异,可能存在由于factory-specific变化。响应变量缺陷泊松分布,适当的日志链接函数模型。使用拉普拉斯合适方法来估计系数。指定哑变量编码“影响”,所以哑变量系数之和为0。

缺陷的数量可以使用泊松分布模型:

缺陷 j 泊松 ( μ j )

这对应于广义线性mixed-effects模型

日志 ( μ j ) = β 0 + β 1 newprocess j + β 2 时间 _ dev j + β 3 临时 _ dev j + β 4 供应商 _ C j + β 5 供应商 _ B j + b ,

在哪里

  • 缺陷 j 是缺陷的数量在批量生产的工厂吗 在批处理 j

  • μ j 缺陷对应的平均数量是工厂吗 ( = 1 , 2 , , 2 0 在批处理) j ( j = 1 , 2 , , 5 )。

  • newprocess j , 时间 _ dev j , 临时 _ dev j 每个变量的测量是对应于工厂吗 在批处理 j 。例如, newprocess j 指示是否批量生产的工厂 在批处理 j 使用新工艺。

  • 供应商 _ C j 供应商 _ B j 虚拟变量,使用效果(总和为零)编码来表示是否公司吗CB分别提供工厂生产的批处理过程的化学物质 在批处理 j

  • b N ( 0 , σ b 2 ) 是一个随机拦截每个工厂吗 占factory-specific质量的变化。

glme = fitglme(生产商,的缺陷~ 1 + newprocess + time_dev + temp_dev +供应商+(1 |工厂)',“分布”,“泊松”,“链接”,“日志”,“FitMethod”,“拉普拉斯”,“DummyVarCoding”,“影响”);

预测响应值在原设计值。

ypred =预测(glme);

创建一个新表通过复制第十行生产商tblnew

:tblnew =生产商(1:10);

第十行生产商包括数据收集试验1到5的1和2的工厂。工厂使用旧的过程在实验中,他们所有的试验newprocess = 010的观察。

变化的值newprocess1的观察tblnew

tblnew。newprocess = ones(height(tblnew),1);

计算预测响应值和异时99%置信区间tblnew。显示前10行基于预测的值tblnew,基于预测的值生产商和观察到的响应值。

[ypred_new, ypredCI] =预测(glme tblnew,“α”,0.01);[ypred_new ypred (1:10), mfr.defects (1:10)]
ans =10×33.4536 4.9883 6.0000 4.1142 5.9423 7.0000 3.5530 5.1318 6.0000 3.8976 5.6295 5.0000 3.7040 5.3499 6.0000 3.6095 5.2134 5.0000 3.2146 4.6430 4.0000 3.1393 4.5342 4.0000 3.7320 5.3903 9.0000 3.2214 4.6529 4.0000

第一列包含基于的数据预测响应值tblnew,在那里newprocess = 1。第2列包含基于原始数据在预测响应值生产商,在那里newprocess = 0。第三列包含中观察到的响应值生产商。基于这些结果,如果所有其他因素保持他们的原始值,预测数量的缺陷似乎是小当使用新的过程。

显示行1到10的99%置信区间对应的新预测响应值。

ypredCI (1:10, 1:2)
ans =10×21.6983 7.0235 1.9191 8.8201 1.8735 6.7380 2.0149 7.5395 1.9034 7.2079 1.8918 6.8871 1.6776 6.1597 1.5404 6.3976 1.9574 7.1154 1.6892 6.1436

引用

[1]展台,j,J.P. Hobert. “Standard Errors of Prediction in Generalized Linear Mixed Models.”美国统计协会杂志》上93卷,1998年,页262 - 272。