主要内容

用广义线性模型拟合数据

此示例显示如何使用和评估广义的线性模型使用glmfitglmval..普通线性回归可以用来拟合直线,或任何函数的参数是线性的,以数据正态分布的误差。这是最常用的回归模型;然而,这并不总是现实的。广义线性模型从两方面扩展了线性模型。首先,通过引入连杆函数,放宽了参数线性的假设。第二,可以对除正态分布以外的误差分布进行建模

广义线性模型

回归模型用一个或多个预测变量(通常表示为x1, x2等)定义响应变量(通常表示为y)的分布。最常用的回归模型,普通线性回归,模型y作为一个正态随机变量,其均值是预测器的线性函数,b0 + b1*x1 +…,其方差是常数。在单个预测器x的最简单情况下,模型可以表示为每一点的高斯分布直线。

Mu = @(x) -1.9+.23*x;x = 5: .1:15;yhat =μ(x);dy = -3.5: .1:3.5;深圳=大小(dy);k =(长度(dy) + 1) / 2;x1 = 7 * 1(深圳);日元=μ(x1) + dy;z1 = normpdf(μ(x1)、日元1);x2 = 10 * 1(深圳); y2 = mu(x2)+dy; z2 = normpdf(y2,mu(x2),1); x3 = 13*ones(sz); y3 = mu(x3)+dy; z3 = normpdf(y3,mu(x3),1); plot3(x,yhat,zeros(size(x)),“b -”......X1,Y1,Z1,'r-',X1([k K]),Y1([k]),[0 Z1(k)],“:”......X2,Y2,Z2,'r-',x2([k k]),y2([k]),[0 z2(k)],“:”......X3,Y3,Z3,'r-',x3([k k]),y3([k k]),[0 z3(k)],“:”);zlim([01]);Xlabel(“X”);ylabel(“Y”);zlabel (的概率密度);网格;视图(45 [-45]);

在广义线性模型中,响应的均值被建模为预测器g(b0 + b1*x1 +…)的线性函数的单调非线性变换。变换g的逆称为“连杆”函数。示例包括logit (sigmoid)链接和log链接。y也可以是非正态分布,如二项分布或泊松分布。例如,具有对数链接和单个预测器x的泊松回归可以表示为每一点具有泊松分布的指数曲线。

Mu = @(x) exp(-1.9+.23*x);x = 5: .1:15;yhat =μ(x);x1 = 7 * 1(1、5);日元= 0:4;z1 = poisspdf(μ(x1)日元);x2 = 10 * 1 (7);y2 = 0:6;z2 = poisspdf (y2,μ(x2));x3 = 13 * 1 (9); y3 = 0:8; z3 = poisspdf(y3,mu(x3)); plot3(x,yhat,zeros(size(x)),“b -”......[x1;X1],[Y1;Y1],[Z1;零(尺寸(y1))],'r-'(x1, y1, z1,'r。'......[x2;x2]、[y2;y2]、[z2;0(大小(y2))),'r-',x2,y2,z2,'r。'......[x3;X3],[Y3;Y3],[Z3;零(尺寸(y3))],'r-',x3,y3,z3,'r。');zlim([01]);Xlabel(“X”);ylabel(“Y”);zlabel (“概率”);网格;视图(45 [-45]);

拟合逻辑回归

此示例涉及实验,以帮助建模各种重量的汽车的比例,该速度失效了里程测试。数据包括重量的观察,经过测试的汽车数量,并且数字失败。

一套汽车重量重量= [2100 2300 2500 2700 2900 3100 3300 3500 3700 3900 4100 4300]';%在每种重量上测试的汽车数量测试= [48 42 31 31 31 23 23 21 16 17 21]'。每一重量未通过测试的汽车数量Failed = [1 2 0 3 8 8 14 17 19 15 17 21]';每次重量都失败的汽车比例比例=失败./测试;情节(体重,比例,')包含(“重量”);ylabel(“比例”);

这张图是失败汽车的比例,作为重量的函数。可以合理地假设失效计数来自二项分布,概率参数P随着权重的增加而增加。但是P是如何依赖于重量的呢?

我们可以尝试向这些数据拟合直线。

linearCoef = polyfit(重量比例1);linearFit = polyval (linearCoef、重量);情节(体重,比例,',重量,linearfit,'r-',[2000 4500],[0 0],凯西:”,[2000 4500],[1 1],凯西:”)包含(“重量”);ylabel(“比例”);

这种线性拟合有两个问题:

1)该线预测小于0和大于1的比例。

2)比例通常不分布,因为它们必须有界。这违反了拟合简单的线性回归模型所需的假设之一。

使用高阶多项式可能会有帮助。

[立方体,统计数据,CTR] = Polyfit(重量,比例,3);Cubicfit = Polyval(Cubiccoef,重量,[],CTR);情节(体重,比例,',重量,cubicfit,'r-',[2000 4500],[0 0],凯西:”,[2000 4500],[1 1],凯西:”)包含(“重量”);ylabel(“比例”);

但是,这种合适仍然存在类似的问题。该图表明,随着重量超过4000,拟合比例开始减少;实际上它会变得较大的重量值。当然,仍然违反了正常分布的假设。

相反,更好的方法是使用glmfit拟合逻辑回归模型。逻辑回归是广义线性模型的一种特殊情况,对于这些数据,逻辑回归比线性回归更合适,原因有二。首先,它使用了适合二项分布的拟合方法。其次,物流环节将预测比例限制在[0,1]范围内。

对于Logistic回归,我们指定了预测矩阵,以及包含一个列的矩阵,其中包含失败计数,并且包含所测试的数量的一列。我们还指定了二项式分布和Logit链接。

[logitCoef,dev] = glmfit(weight,[failed tested],“二”'logit');Logitfit = Glmval(LogitCoef,重量,'logit');情节(体重,比例,'BS',重量,logitfit,'r-');Xlabel(“重量”);ylabel(“比例”);

正如该图所示,拟合比例渐近为零,一个重量变小或大。

模型诊断

glmfit函数提供了一些输出,用于检查模型的适用性和测试模型。例如,我们可以比较两个模型的偏差值,以确定平方项是否会显著改善拟合。

[LogitCoEF2,DEV2] = GLMFIT([重量重量。^ 2],[测试失败],“二”'logit');PVAL = 1  -  CHI2CDF(DEV-DEV2,1)
pval = 0.4019

大的p值表示,对于这些数据,二次术语不会显着提高拟合。两个配合的曲线表明,适合的差异很小。

logitfit2 = glmval(LogitCoef2,[重量重量^ 2],'logit');情节(体重,比例,'BS',重量,logitfit,'r-'、重量、logitFit2'G-');传奇(“数据”“线性条件”'线性和二次术语'“位置”“西北”);

为了检查合适的善良,我们还可以看看Pearson残差的概率图。这些是归一化的,使得当模型是合理的适合数据时,它们具有大致标准的正态分布。(没有这种标准化,残差会有不同的差异。)

[logitCoef,dev,stats] = glmfit(weight,[failed tested],“二”'logit');normplot(stats.residp);

残差图与正态分布很好地吻合。

评估模型预测

一旦我们对模型感到满意,我们就可以使用它来进行预测,包括计算置信度限制。在这里,我们预测了预期的汽车数量,超过100个测试,这将在四个重量中的每一个中失效。

重量= 2500:500:4000;[失败,dlo,dhi] = glmval(logitcoef,treachred,'logit'统计,.95,100);dlo errorbar (weightPred failedPred,济,':');

二项模型的链接函数

对于这五个分布中的每一个glmfit金宝app支持,有一个规范的(默认的)链接函数。对于二项分布,规范的连接是logit。然而,对于二项模型来说,还有其他三个联系是合理的。所有四个都保持在区间[0,1]内的平均响应。

η= 5:.1:5;Plot (eta,1 ./ (1 + exp(-eta))' - '埃塔,normcdf (eta),' - '......ETA,1  -  EXP(-Exp(ETA)),' - '埃塔,exp (exp (eta)),' - ');Xlabel('预测器的线性函数');ylabel('预测意味着反应');传奇('logit''概率'互补的双对数的'log-log'“位置”'东');

例如,我们可以将符合概率链接与Logit链路进行比较。

probitcoef = glmfit(重量,[测试),“二”'概率');probitFit = glmval (probitCoef、重量、'概率');情节(体重,比例,'BS',重量,logitfit,'r-',重量,probitfit,'G-');传奇(“数据”“Logit模型”“Probit模型”“位置”“西北”);

数据通常很难区分这四种链接功能,通常是在理论基础上做出选择。