统计和机器学习工具箱™功能ecdf
使用Kaplan-Meier非参数方法生成经验累积危险、幸存者和累积分布函数。生存函数的Kaplan-Meier估计量也称为采用估计量.
Kaplan-Meier方法使用生命表中总结的生存数据。生命表根据上升的故障时间来排序数据,但您不必以有序的方式输入故障/生存时间ecdf
.
生命表通常包括:
次失败
一次/一段时间内失败的项数
一段时间内被审查的项目数量
在一段时间/一段时间开始时有风险的项目数量
处于危险中的人数是每一时期开始时幸存者的总数。第一阶段开始时的风险数字是所有终身研究中的个体。在每一个剩余时期的开始,风险的数量是由失败的数量加上在前一个时期结束时被审查的个人数量减少的。
这个生命表显示了虚构的生存数据。在第一次故障时间的开始,有七个项目面临风险。时间4,3个失败。在时间7的开始,有四个项目有风险。在时间7只有一个失败了,所以在时间11开始有风险的数字是3。两个在时间11失败,所以在时间12的开始,有风险的数字是1。剩余的项目在时间12时失败。
故障时间(t) | 失败的数量 | 数量风险 |
---|---|---|
4 | 3. | 7 |
7 | 1 | 4 |
11 | 2 | 3. |
12 | 1 | 1 |
您可以使用下面描述的生命表来估计危害、累积危害、生存和累积分布函数。
累积危险率(故障率)
每个时期的危险率是给定时期内失败的数量除以时期开始时幸存的个体数量(处于危险的数量)。
故障时间(t) | 风险率(h(t)) | 累积风险率 |
---|---|---|
0 | 0 | 0 |
t1 | d1/r1 | d1/r1 |
t2 | d2/r2 | h(t1) +d2/r2 |
... | ... | ... |
tn | dn/rn | h(tn- 1) +dn/rn |
生存概率
对于每个时期,生存概率是危险率的补充乘积。第一个时间段开始时的初始生存概率为1。如果每个时期的危险率为h(t我),则存活概率如下图所示。
时间(t) | 生存概率(年代(t)) |
---|---|
0 | 1 |
t1 | 1 * (1 -h(t1)) |
t2 | 年代(t1) * (1 -h(t2)) |
... | ... |
tn | 年代(tn- 1) * (1 -h(tn)) |
累积分布函数
由于累积分布函数(cdf)和幸存者函数互为补充,您可以使用以下命令从生命表中找到cdfF(t) = 1 -年代(t).
您可以计算本页面第一个表中的模拟数据的累积危险率、存活率和累积分布函数,如下所示。
t | 失败的数量(d) | 有风险的人数(r) | 故障率 | 生存概率 | 累积分布函数 |
---|---|---|---|---|---|
4 | 3. | 7 | 3/7 | 1 - 3/7 = 4/7 = 0.5714 | 0.4286 |
7 | 1 | 4 | 1/4 | 4/7*(1 - 1/4) = 3/7 = .4286 | 0.5714 |
11 | 2 | 3. | 2/3 | 3/7*(1 - 2/3) = 1/7 = 0.1429 | 0.8571 |
12 | 1 | 1 | 1/1 | 1/7*(1 - 1) = 0 | 1 |
本例中的速率是基于离散故障时间,因此计算不一定遵循基于导数的定义什么是生存分析?
这里是如何输入数据和计算这些措施使用ecdf
.数据不一定要按升序排列。假设失败时间存储在一个数组中y
.
Y = [4 7 11 12];Freq = [3 1 2 1];(f (x) = ecdf (y,“频率”、频率)
F = 0 0.4286 0.5714 0.8571 1.0000 x = 4 4 7 11 12
当你有经过审查的数据时,生命表可能看起来如下:
时间(t) | 失败的数量(d) | 审查 | 有风险的人数(r) | 故障率 | 生存概率 | 累积分布函数 |
---|---|---|---|---|---|---|
4 | 2 | 1 | 7 | 2/7 | 1 - 2/7 = 0.7143 | 0.2857 |
7 | 1 | 0 | 4 | 1/4 | 0.7143*(1 - 1/4) = 0.5357 | 0.4643 |
11 | 1 | 1 | 3. | 2/3 | 0.5357*(1 - 1/3) = 0.3571 | 0.6429 |
12 | 1 | 0 | 1 | 1/1 | 0.3571*(1 - 1) = 0 | 1.0000 |
在任何给定的时间,审查项目也被考虑到总的风险数量,危险率公式是基于失败的数量和总的风险数量。在每一时期开始时更新有风险的数量时,前一时期的失败和审查总数从该时期开始时的有风险的数量中减少。
在使用ecdf
,还必须使用二进制变量数组输入审查信息。截尾数输入1,精确故障时间输入0。
Y = [4 4 4 7 11 11 12];Cens = [0 1 0 0 1 0];(f (x) = ecdf (y,“审查”岑)
F = 0 0.2857 0.4643 0.6429 1.0000 x = 4 4 7 11 12
ecdf
,默认情况下生成累积分布函数值。必须使用可选的名称-值对参数指定survivor函数或hazard函数。您还可以如下图所示绘制结果。
图()ecdf (y,“审查”岑,“函数”,“幸存者”);
图()ecdf (y,“审查”岑,“函数”,“累积风险”);
d·R·考克斯和d·奥克斯。生存资料分析.伦敦:查普曼和霍尔出版社,1984年。
j·F·劳里斯终生数据的统计模型和方法.霍博肯,新泽西州:威利国际科学出版社,2002年。
D. G. Kleinbaum和M. Klein。生存分析.生物和健康统计。第二版。施普林格,2005年。