加权非线性回归

这个例子展示了如何适应数据的非线性回归模型和非常数的误差方差。

常规非线性最小二乘算法时适当的测量误差都有相同的方差。当这种假设是不正确的,它是适合使用加权。这个例子展示了如何使用重量fitnlm函数。

数据和模型

我们将使用收集的数据来研究水污染由工业和国内废物引起的。详细描述这些数据框,几何级数,W.G. Hunter, and J.S. Hunter, Statistics for Experimenters (Wiley, 1978, pp. 483-487). The response variable is biochemical oxygen demand in mg/l, and the predictor variable is incubation time in days.

x = [1 2 3 5 7 10]”;y = (109 149 149 191 213 224) ';情节(x, y,“柯”)包含(“孵化(天),x ')ylabel (“生化需氧量(毫克/升),y ')

图包含一个坐标轴对象。坐标轴对象包含孵化(天),x, ylabel生化需氧量(毫克/升),y包含一行对象显示它的值只使用标记。

我们假设众所周知,前两个观测精度是用少于其余观测。例如,他们可能已经用不同的乐器。重量数据的另一个常见原因是,每个记录观察实际上是几个度量值的平均值在相同的值(x)的数据,假设第一个两个值代表的是单一的原始测量,而其余四个都5原始测量值的平均值。然后它将适当的体重测量的数量每观察。

w = [1 1 5 5 5 5] ';

适合没有权重模型

我们适合这些数据模型是一个按比例缩小的指数曲线,变水平x就大了。

modelFun = @ (b, x) b (1) * (1-exp (- b (2)。* x));

基于一个粗略的视觉健康,似乎一条曲线绘制通过点可能水平的价值约240的价位是x = 15。所以我们将使用240作为b1的起始值,因为e ^(闲置* 15)小于1,我们将使用5为b2的起始值。

开始= [240;5);

忽视了测量误差的危险是适应可能会过于受不精确的测量,并可能因此不提供一个良好的适合测量精确已知。让我们适应数据没有重量和比较点。

nlm = fitnlm (x, y, modelFun,开始);xx = linspace (0, 12) ';线(xx,预测(nlm, xx),“线型”,“——”,“颜色”,“k”)

图包含一个坐标轴对象。坐标轴对象包含孵化(天),x, ylabel生化需氧量(毫克/升),y包含2线类型的对象。一个或多个行显示的值只使用标记

注意,拟合曲线是把对前两个点,但似乎错过其他点的趋势。

符合模型权重

让我们尝试重复使用重量。

modelFun wnlm = fitnlm (x, y,开始,“重量”w)

wnlm =非线性回归模型:y ~ b1 * (1 - exp (- b2 * x))估计系数:估计SE tStat pValue说______ __________ b1 e-05 b2 0.40078 0.064296 6.2333 3.0134 225.17 10.7 21.045 0.0033745的观测数量:6,错误自由度:4根均方误差:24平方:0.908,调整平方0.885 f统计量与零模型:696年,假定值= 8.2 e-06

线(xx,预测(wnlm, xx),“颜色”,“b”)

图包含一个坐标轴对象。坐标轴对象包含孵化(天),x, ylabel生化需氧量(毫克/升),y包含3线类型的对象。一个或多个行显示的值只使用标记

估计总体标准偏差在这种情况下,描述了“标准”的平均变化与体重,观察或测量精度为1。

wnlm.RMSE

ans = 24.0096

任何分析的一个重要组成部分是一个估计的模型的精度。的系数显示显示了参数标准误差,但我们也可以计算置信区间。

coefCI (wnlm)

ans =2×2195.4650 254.8788 0.2223 0.5793

估计响应曲线

接下来,我们将计算拟合响应值和置信区间。默认情况下,这些宽度为边界点态信心的预测价值,但我们将请求同步间隔为整个曲线。

[ypred, ypredci] =预测(wnlm, xx,“同时”,真正的);情节(x, y,“柯”xx ypred,“b -”xx ypredci,“:”)包含(“x”)ylabel (“y”)ylim(350年[-150])传说({“数据”,“加权匹配”,95%置信区间的},…“位置”,“东南”)

图包含一个坐标轴对象。坐标轴对象包含x, y ylabel包含4线类型的对象。一个或多个行显示的值只使用这些对象标记表示数据,加权,95%可信限。

注意到两个downweighted点也不适合其余点的曲线。如你所愿的加权。

也可以指定值的估计预测未来观测间隔x。这些间隔实际上承担重量,或测量精度为1。

[ypred, ypredci] =预测(wnlm, xx,“同时”,真的,…“预测”,“观察”);情节(x, y,“柯”xx ypred,“b -”xx ypredci,“:”)包含(“x”)ylabel (“y”)ylim(350年[-150])传说({“数据”,“加权匹配”,“95%预测限制”},…“位置”,“东南”)

图包含一个坐标轴对象。坐标轴对象包含x, y ylabel包含4线类型的对象。一个或多个行显示的值只使用这些对象标记表示数据,加权,95%预测极限。

权重的绝对规模实际上并不影响参数估计。重新调节任意常数的权重会给我们同样的估计。但它们确实影响信心界限,因为边界表示与体重的观察1。在这里您可以看到点较高的体重似乎太接近安装线,限制与信心。

假设我们感兴趣的一个新的观察,基于五个测量的平均值,就像过去四分在这个阴谋。通过使用指定观察权重权重名称-值参数的预测函数。

[new_ypred, new_ypredci] =预测(wnlm, xx,“同时”,真的,…“预测”,“观察”,“重量”5 *的(大小(xx)));情节(x, y,“柯”xx new_ypred,“b -”xx new_ypredci,“:”)包含(“x”)ylabel (“y”)ylim(350年[-150])传说({“数据”,“加权匹配”,“95%预测限制”},…“位置”,“东南”)

图包含一个坐标轴对象。坐标轴对象包含x, y ylabel包含4线类型的对象。一个或多个行显示的值只使用这些对象标记表示数据,加权,95%预测极限。

的预测函数估计误差方差的观察我通过MSE * (1 / W (i)),在那里均方误差均方误差。因此,置信区间变得狭窄。

残留分析

除了绘制数据和健康,画出适合对预测残差,诊断与模型的任何问题。残差应该出现独立同分布(先验知识)。但方差与权值的倒数成正比。情节i.i.d.标准化残差确认值相同的方差。标准化残差原始残差除以标准差估计。

r = wnlm.Residuals.Standardized;情节(x, r,“b ^”)包含(“x”)ylabel (标准化残差的)

图包含一个坐标轴对象。坐标轴对象包含x, ylabel标准化残差包含一行对象显示它的值只使用标记。

有证据表明系统模式的残余阴谋。注意最后四残差有线性趋势,表明该模型可能不足够快当x的增加而增加。同时,残差的大小会减少当x增加,表明测量误差可能取决于x。这些值得调查,然而,有那么几个数据点,很难对这些明显的附加意义的模式。

另请参阅

NonLinearModel|fitnlm|预测|coefCI