分析生存或可靠性数据

这个例子显示了如何分析寿命数据与审查。在生物学或医学应用中,这是被称为存活分析,和时间可能代表生物体或时间的存活时间,直到疾病固化。在工程应用中,这是被称为可靠性分析,和时间可能代表了时间到设备部件的失效。

我们的示例模型的时间从一个汽车燃油喷射系统的油门故障。

寿命数据的特殊属性

寿命数据中的某些功能区分其他类型的数据。首先,寿命总是正值,通常代表时间。其次,一些寿命可能不会被精确地观察到,因此它们是已知的唯一的比某个值更大。第三,常用的分布和分析技术是相当特异于寿命数据

让我们模拟测试100个节流,直到失败的结果。我们会生成如果大多数油门有一个相当长的寿命可能被观测到的数据,但一小部分往往很早就失败。

RNG(2,“扭腰”);寿命= [wblrnd(15000,3,90,1);wblrnd(1500,3,10,1)];

在这个例子中,假设我们有压力的条件下测试的节流阀,使测试的每个小时相当于〜100小时在现场实际使用的。对于务实的原因,往往是可靠性测试的时间固定时间后停止的情况。在这个例子中,我们将使用140小时,相当于总共14000小时真正的服务。在测试过程中有些项目失败了,而另一些生存的整个140小时。在实际测试中,后者的时间将被记录为14,000人,我们模仿这个的模拟数据。这也是常见的做法是失败次数进行排序。

T = 14000;obstime =排序(分钟(T,寿命));

我们知道的是生存测试的任何油门最终将失败,但是测试不够长,他们的实际时间观察到的失败。他们的一生只知道是更大的超过14,000个小时。这些值表示待检查。该图显示,大约有40我们的数据的百分比在14000的审查。

失败= obstime(obstime  = T);图([零(大小(obstime)),obstime]”,repmat(1:长度(obstime),2,1),...'颜色''B''的LineStyle'' - ')线([T; 3E4],repmat(nfailed +(1:nsurvived),2,1),'颜色''B''的LineStyle'':');线([T; T],[0; nfailed + nsurvived]'颜色'数k'的LineStyle'' - ')文本(T,30,“< - 未知的存活时间过去这里”)xlabel(“生存时间”);ylabel(“观察数”

综观分布的方法

在我们检查数据的分布,让我们考虑在寻找一个概率分布不同的方式。

  • 概率密度函数(PDF)表示失败的在不同时间的相对概率。

  • 幸存者函数给出的存活的概率为时间的函数,并且仅仅是一个减去累积分布函数(1-CDF)。

  • 风险率给出了故障给生存在给定时间的瞬时概率。它是PDF由幸存的功能划分。在这个例子中风险率变成是增加,这意味着项目是随着时间流逝(老化)更容易出故障。

  • 概率曲线图是一个重新缩放的CDF,并用于数据比较,以拟合分布。

下面是使用Weibull分布来说明,这四个情节类型的示例。威布尔是用于建模寿命数据的公共分布。

X = linspace(1,30000);副区(2,2,1);积(X,wblpdf(X,14000,2)中,x,wblpdf(X,18000,2)中,x,wblpdf(X,14000,1.1))标题('概率。密度FCN”)副区(2,2,2);积(X,1-wblcdf(X,14000,2)中,x,1- wblcdf(X,18000,2)中,x,1- wblcdf(X,14000,1.1))标题(“幸存者FCN”)副区(2,2,3-);wblhaz = @(X,A,B)(wblpdf(X,A,B)./(1- wblcdf(X,A,B)));积(X,wblhaz(X,14000,2)中,x,wblhaz(X,18000,2)中,x,wblhaz(X,14000,1.1))标题(“危险率FCN”)副区(2,2,4);probplot(“韦伯”,wblrnd(14000,2,40,1))标题(“概率图”

拟合威布尔分布

Weibull分布是指数分布的推广。如果寿命遵循指数分布,那么他们有恒定的危险率。这意味着,他们没有年龄,在这个意义上,观察给生存于区间的开始在间隔的失败,概率,不依赖于在间隔开始。甲威布尔分布具有危险率,其可以增加或减少。

用于模拟寿命数据其它分布包括对数正态,γ和伯恩鲍姆-桑德斯分布。

我们将绘制我们的数据的经验累积分布函数,显示比例高达失败每个可能的存活时间。虚线曲线给出了这些概率95个%置信区间。

副区(1,1,1);[EMPF,X,empFlo,empFup] = ECDF(obstime,“截尾”,审查);楼梯(X,EMPF);保持;楼梯(X,empFlo,':');楼梯(X,empFup,':');保持xlabel('时间');ylabel(“比重失败”);标题(“经验CDF”

该图显示,例如,该比例由时间4000失败是约12%,并且在这时间开往失败的概率的95%置信为6%至18%。请注意,由于我们的测试只跑出了14000小时,经验CDF只允许我们计算失效概率出该限制。几乎一半的数据均在14000审查,所以经验CDF唯一上升的,而不是1.0至约0.53。

Weibull分布往往是设备故障的良好模型。功能wblfit适合威布尔分布数据,包括审查数据。计算参数估计值后,我们会评估拟合泊尔模型的CDF,使用这些估计。因为CDF值是基于估计的参数,我们将计算为他们置信区间。

paramEsts = wblfit(obstime,“截尾”,审查);[nlogl,paramCov] = wbllike(paramEsts,obstime,审查);XX = linspace(1,2 * T,500);[wblF,wblFlo,wblFup] = wblcdf(XX,paramEsts(1),paramEsts(2),paramCov);

我们可以叠加的经验CDF和拟合CDF的情节,来判断如何威布尔分布模型油门可靠性数据。

楼梯(X,EMPF);保持手柄=情节(XX,wblF,'R-',XX,wblFlo,'R:',XX,wblFup,'R:');保持xlabel('时间');ylabel(“合身失效概率”);标题(“Weibull分布模型与实证”

请注意,威布尔模型可以让我们伸出了时间和计算失效概率超出测试结束。然而,这似乎拟合曲线不符合我们的数据很好。我们有时间2,000什么泊尔模型所预测的相比之前太多的早期失效,并且结果,约7000和13000之间太少的时间。这并不奇怪 - 回想一下,我们生成的数据只有这样的行为。

添加平滑非参数估计

提供统计和机器学习工具箱™预先定义的函数不包括有过量的早期失效任何这样的分布。相反,我们可能希望通过实证CDF绘制平稳,非参数曲线,使用功能ksdensity。我们将移除威布尔CDF信心带,并添加两条曲线,一个具有默认平滑参数,以及一个带有平滑参数1/3的默认值。较小的平滑参数,使曲线跟随数据更加紧密。

删除(手柄(2:结束))[NPF,忽略,U] = ksdensity(obstime,XX,“经社,审查,'功能''CDF');线(XX,NPF,'颜色''G');npF3 = ksdensity(obstime,XX,“经社,审查,'功能''CDF''宽度'中,u / 3);线(XX,npF3,'颜色''M');XLIM([0 1.3 * T])标题(“韦伯和非参数模型与实证”)图例('经验'“合身韦伯”“非参数,默认”“非参数,默认1/3”...'位置''西北');

与较小的平滑参数的非参数估计的数据相匹配良好。然而,仅仅作为经验CDF,它是不可能的推断非参数模型超出了测试结束 - 估计CDF水平了最后的观察之上。

让我们来计算这个非参数拟合的风险率,并绘制它在数据的范围。

hazrate = ksdensity(obstime,XX,“经社,审查,'宽度'中,u / 3)./(1- npF3);图(XX,hazrate)称号(“风险率非参数模型”)XLIM([0 T])

这条曲线有一个有点“浴缸”形的,具有危险率是高的近2000人,下降到较低的值,然后再次上升。这是典型的危险率的针对要失效更易发生在它的生命(婴儿死亡率)早一个组件,稍后再在其生命(老化)。

还要注意,危险率不能上述用于非参数模型最大未经审查观测来估计,并且曲线图下降到零。

替代车型

对于我们使用这个例子的模拟数据,我们发现,Weibull分布是不是一个合适的选择。我们可以用一个非参数拟合拟合数据良好,但这种模式仅仅是数据的范围内是有用的。

一个替代方法是使用不同的参数分布。统计和机器学习工具箱包括其他常见的寿命分布,如对数正态分布,伽玛和伯恩鲍姆 - 桑德斯,以及许多其他的发行未常用的一生车型使用的功能。您也可以定义和定制适合参数模型,以寿命数据,如描述安装自定义单变量分布,第2部分例。

另一种方法是使用两个参数分布的混合 - 一个代表早期失效,另一个代表分布的其余部分。件分布的混合物在描述安装自定义单变量分布例。