分析生存或可靠性数据

这个例子展示了如何分析与审查一生数据。在生物或医学应用程序中,这是被称为生存分析,《纽约时报》可能代表一个有机体的生存时间或时间直到治愈疾病。在工程应用中,这被称为可靠性分析,《纽约时报》可能代表一件设备的失败的时候。

我们的示例模型时间失败的汽车燃油喷射系统的节流。

特殊性质的寿命数据

一些功能寿命数据的区分其他类型的数据。首先,一生中总是积极的价值观,通常代表时间。第二,一些寿命可能没有精确的观察,所以他们只知道大于某个值。第三,常用的分布和分析技术是相当特定的生命周期数据

让我们模拟测试的结果100油门直到失败。我们将生成的数据,可能会观察到如果大多数油门有相当长的寿命,但一小部分往往非常早期的失败。

rng (2“旋风”);一生= [wblrnd (15000, 90, 1);wblrnd (1500、3、10,1)];

在这个示例中,假设我们正在测试压力条件下油门,这样每小时测试相当于100小时的实际使用。出于实际的原因,通常情况下,可靠性测试是一个固定时间后停止。对于这个示例,我们将使用140小时,相当于总计14000小时的实际服务。一些物品在测试中失败,而其他人生存整个140小时。在实际测试中,《纽约时报》对后者将记录为14000年,我们模仿这个模拟数据。也是常见的做法失败时报。

T = 14000;obstime =排序(min (T,一生));

我们知道任何油门生存测试最终会失败,但时间不够长观察实际考验失败。一生只知道要大于14000小时。这些值是审查。这张图显示,约40%的数据是在14000年审查。

失败= obstime (obstime < T);nfailed =长度(失败);幸存= obstime (obstime = = T);nsurvived =长度(存活);审查= (obstime > = T);情节([0(大小(obstime)), obstime]”, repmat(1:长度(obstime), 2, - 1),…“颜色”,“b”,“线型”,“- - -”)线(T; 3 e4, repmat (nfailed + (1: nsurvived), 2, - 1),“颜色”,“b”,“线型”,“:”);线([T, T], [0; nfailed + nsurvived],“颜色”,“k”,“线型”,“- - -”)文本(T, 30岁,<——未知的存活时间过去的)包含(的生存时间);ylabel (“观察数量”)

图包含一个坐标轴对象。坐标轴对象包含149行类型的对象,文本。

看着分布的方法

在我们检查之前的分布数据,让我们考虑一下看一个概率分布的不同方式。

概率密度函数(PDF)表示的相对概率失败在不同的时间。
幸存者函数提供了生存的概率作为时间的函数,和仅仅是一个负的累积分布函数(1-CDF)。
风险率给出了瞬时失效概率生存了。它是PDF除以幸存者函数。在这个例子中,风险率会增加,这意味着项目失败更容易随着时间的流逝(老化)。
概率情节是re-scaled提供,用于比较数据拟合分布。

以下是这四个图表类型的例子,用威布尔分布来说明。建模的威布尔分布是一种常见的寿命数据。

x = linspace (30000);次要情节(2 2 1);情节(x, wblpdf (x, 14000, 2), x, wblpdf (x, 18000, 2), x, wblpdf (1.1 x 14000))标题(的概率。密度Fcn”次要情节(2,2,2);情节(x, 1-wblcdf (x, 14000, 2), x, 1-wblcdf (x, 18000, 2), x, 1-wblcdf (1.1 x 14000))标题(“幸存者Fcn”)次要情节(2、2、3);wblhaz = @ (x, a, b) (wblpdf (x, a、b)。/ (1-wblcdf (x, a, b)));情节(x, wblhaz (x, 14000, 2), x, wblhaz (x, 18000, 2), x, wblhaz (1.1 x 14000))标题(“风险率Fcn”)次要情节(2、2、4);probplot (“威布尔”wblrnd(14000 2, 40岁,1))标题(“概率图”)

图包含4轴对象。坐标轴对象1标题问题。密度Fcn包含3线类型的对象。坐标轴对象2标题幸存者Fcn包含3线类型的对象。坐标轴对象3标题故障率Fcn包含3线类型的对象。坐标轴对象与标题概率图4包含2线类型的对象。

威布尔分布拟合

威布尔分布是指数分布的泛化。如果一生中遵循一个指数分布,然后他们有一个恒定的故障率。这意味着他们没有年龄,在某种意义上,观察一个失败的概率在一个区间,鉴于间隔生存开始,不依赖于时间间隔开始的地方。威布尔分布有可能增加或减少的故障率。

其他发行版用于建模寿命数据包括对数正态,γ,Birnbaum-Saunders分布。

我们将情节的经验累积分布函数数据,显示失败的比例每个可能的生存时间。虚线曲线给这些概率的置信区间为95%。

次要情节(1 1 1);[empF x, empFlo, empFup] = ecdf (obstime,“审查”、审查);楼梯(x, empF);持有在;楼梯(x, empFlo,“:”);楼梯(x, empFup,“:”);持有从包含(“时间”);ylabel (“比例”失败);标题(“经验提供”)

图包含一个坐标轴对象。坐标轴对象与标题经验提供包含3个楼梯类型的对象。

这个图显示,例如,4000年失败的时间比例大约是12%,和95%的信心前往这次失败的概率从6%降至18%。注意,因为我们的测试只跑了14000小时,经验CDF只允许我们计算失效概率限制。几乎一半的14000年数据被审查,所以经验CDF只上升到0.53,而不是1.0。

威布尔分布通常是一个好的模型的设备故障。这个函数wblfit符合威布尔分布数据,包括数据审查。计算参数估计后,我们会评估的运作符合威布尔模型,使用这些估计。因为提供的值是基于估计参数,我们将计算置信界限。

paramEsts = wblfit (obstime,“审查”、审查);[nlogl, paramCov] = wbllike (paramEsts obstime,审查);xx = linspace (1、2 * 500 (T));[wblF, wblFlo wblFup] = wblcdf (xx, paramEsts (1) paramEsts (2), paramCov);

我们可以重叠块的经验提供和安装CDF,威布尔分布模型来判断如何节流可靠性数据。

楼梯(x, empF);持有在处理=情节(xx, wblF的r -xx wblFlo,“:”xx wblFup,“:”);持有从包含(“时间”);ylabel (“安装失败概率”);标题(“威布尔模型与实证”)

图包含一个坐标轴对象。坐标轴对象与标题威布尔模型与经验包含4楼梯类型的对象,线。

注意,威布尔模型允许我们项目和计算失效概率时间之外的最后测试。然而,拟合曲线似乎不匹配我们的数据。我们有太多失败时间2000年初与威布尔模型的预测相比,因此,太少的时间大约7000和13000之间。这并不奇怪,回想一下,我们只有这种行为生成的数据。

添加一个光滑的非参数估计

提供的预定义函数统计和机器学习工具箱™不包括任何过度的早期故障的分布。相反,我们可能想要画一个光滑,非参数曲线通过实证CDF,使用函数ksdensity。我们将删除威布尔CDF的信心乐队,并添加两条曲线,一个默认的平滑参数,一个用一个平滑参数1/3的默认值。较小的平滑参数使曲线遵循数据更密切。

删除(处理(2:结束))(npF,忽略,u) = ksdensity (obstime, xx,“岑”审查,“函数”,“提供”);线(npF xx,“颜色”,‘g’);npF3 = ksdensity (obstime, xx,“岑”审查,“函数”,“提供”,“宽度”u / 3);线(xx, npF3“颜色”,“米”);xlim (1.3 * T[0])标题(威布尔和非参数模型与实证)传说(“经验”,“符合威布尔”,“非参数,默认”,“非参数,1/3违约”,…“位置”,“西北”);

图包含一个坐标轴对象。坐标轴对象与标题威布尔和非参数模型与实证包含4楼梯,类型的对象。这些对象代表经验,符合威布尔,非参数,默认情况下,非参数,1/3违约。

较小的非参数估计平滑参数匹配的数据。然而,正如实证CDF,不可能推断以外的非参数模型的测试,估计CDF水平高于过去的观察。

让我们计算这个非参数适合的故障率和情节在数据的范围。

hazrate = ksdensity (obstime, xx,“岑”审查,“宽度”u / 3) / (1-npF3);情节(xx, hazrate)标题(“风险率为非参数模型”)xlim ([0, T])

图包含一个坐标轴对象。坐标轴对象与标题故障率为非参数模型包含一个类型的对象。

这条曲线已经有点“浴缸”形状,2000点附近的故障率高,下降到较低的值,然后再次上升。这是典型的组件的故障率更容易失败在其早年(婴儿死亡率),再在它的生命(老化)。

还要注意,上面的故障率不能估计最大的非参数模型,未经审查的观察和图形下降为零。

替代模型

我们使用模拟数据对于这个示例,我们发现,威布尔分布不是一个合适的健康。我们能够适应数据与非参数符合,但这个模型只是有用的范围内的数据。

另一个选择是使用一个不同的参数分布。统计和机器学习工具箱包括等其他常见寿命分布函数对数正态,γ,Birnbaum-Saunders,以及许多其他发行版中不常用的生命周期模型。您还可以定义和合适的自定义参数的模型生命周期数据,如所描述的配件定制分布时避免数值问题的例子。

另一个方法是使用两个参数分布的混合物——一个代表早期失效,另一个代表其余的分布。拟合分布的混合物中描述符合自定义分布的例子。