主要内容

ecdf

经验累积分布函数

描述

例子

fx= ecdf(y返回经验累积分布函数f,估价于x的数据y

例子

fx= ecdf(y名称,值使用一个或多个名称-值参数指定其他选项。例如,“函数”“幸存者”的函数类型f作为幸存者函数。

例子

fx弗洛管理方= ecdf(___还使用前面语法中的任何输入参数组合,返回已求值函数值的下限和上限置信界限。此语法对于间隔截尾数据无效。

例子

ecdf (___生成求值函数的阶梯图。该函数使用阴影矩形可视化间隔截尾数据的区间估计。你可以指定“界限””,在“在图中包括充分观察的、左截尾、右截尾和双重截尾数据的置信界限。

ecdf (斧头___所指定的坐标轴上的图斧头而不是当前轴(gca).

例子

全部折叠

计算模拟生存数据的经验累积分布函数(cdf)的Kaplan-Meier估计。

根据参数3和1的威布尔分布生成生存数据。

rng (“默认”%用于重现性Failuretime =随机时间“wbl”1、3、1、15日);

计算生存数据的经验cdf的Kaplan-Meier估计。

[f,x] = ecdf(failuretime);(f (x)
ans =16×20 0.0895 0.0667 0.0895 0.1333 0.1072 0.2000 0.1303 0.2667 0.1313 0.3333 0.2718 0.4000 0.2968 0.4667 0.6147 0.5333 0.6684 0.6000 1.3749

绘制估计的经验cdf。

ecdf (failuretime)

图中包含一个axes对象。axes对象包含一个stair类型的对象。

生成右截尾生存数据,并将经验累积分布函数(cdf)与已知的cdf进行比较。

从平均故障时间为15的指数分布中生成故障时间。

rng (“默认”%用于重现性Y = expextend (15,75,1);

从平均故障时间为30的指数分布中生成退出时间。

D = expextend (30,75,1);

生成观察到的故障次数,即生成的故障次数和退出次数的最小值。

T = min(y,d);

创建一个逻辑数组,其中包含生成的失败时间大于退出时间。满足此条件的数据将被删除。

删减= (y>d);

计算经验cdf和置信度界限。

[f,x,flo,fup] = ecdf(t,“审查”、审查);

绘制经验cdf和置信界限。

ecdf (t)“审查”审查,“界限”“上”)举行

图中包含一个axes对象。坐标轴对象包含3个楼梯类型的对象。

叠加已知人口cdf的图。

Xx = 0:.1:max(t);Yy = 1-exp(-xx/15);情节(xx, yy,“g -”“线宽”,2)轴([0 max(t) 0 1])图例(“经验提供”“较低的信心界限”...“置信上限”“已知人口cdf”...“位置”“东南”)举行

图中包含一个axes对象。坐标轴对象包含楼梯、直线类型的4个对象。这些对象分别代表经验cdf、下置信界、上置信界、已知总体cdf。

生成生存数据并绘制99%置信限的经验生存函数。

从参数为100和2的Weibull分布生成生命周期数据。

rng (“默认”%用于重现性R = wblrnd(100,2,100,1);

绘制99%置信限数据的经验幸存者函数。

ecdf (R,“函数”“幸存者”“α”, 0.01,“界限”“上”)举行

图中包含一个axes对象。坐标轴对象包含3个楼梯类型的对象。

叠加Weibull幸存者函数的图。

X = 1:1:250;Wblsurv = 1-cdf(“威布尔”, 100岁的x 2);情节(x, wblsurv,“g -”“线宽”2)传说(“经验幸存者函数”“较低的信心界限”...“置信上限”“Weibull幸存者函数”...“位置”“东北”

图中包含一个axes对象。坐标轴对象包含楼梯、直线类型的4个对象。这些对象分别为经验幸存者函数、下置信界、上置信界、威布尔幸存者函数。

基于实际分布的Weibull幸存者函数在置信范围内。

计算并绘制模拟双截尾生存数据的累积危险函数。

从Birnbaum-Saunders分布生成故障时间。

rng (“默认”%用于重现性Failuretime =随机时间“BirnbaumSaunders”、0.3、1、[1]100年);

假设研究开始于时间0.1,结束于时间0.9。这个假设意味着小于0.1的失败次数被左审查,大于0.9的失败次数被右审查。

创建一个向量,其中每个元素表示相应观察的审查状态failuretime.使用-1、1和0分别表示左截尾、右截尾和完全观察到的观测结果。

L = 0.1;U = 0.9;left_filtered = (failuretimeU);C = right_filtered - left_filtered;

绘制具有95%置信限的数据的经验累积风险函数。

ecdf (failuretime“函数”“累积风险”...“审查”c“界限”“上”

计算并绘制间隔截尾数据的经验cdf。

加载城市数据集。这些数据包括对329个美国城市生活质量的9个不同指标的评级:气候、住房、健康、犯罪、交通、教育、艺术、娱乐和经济。对于每一项指标,评级越高越好。

负载城市

选择第一个指标(气候)作为样本数据。

Y = ratings(:,1);

假设指标在Y值是否四舍五入到最接近的整数。然后,可以处理中的值Y作为间隔删减的观察。一个观察yY表示实际额定值介于y - 0.5而且y + 0.5

创建一个矩阵,其中每一行都表示围绕在中的每个整数的区间Y

interval = [Y-0.5, Y+0.5];

计算经验cdf值。

[f,x] = ecdf(间隔);

绘制经验cdf值。

图ecdf(丘陵间低地)

图中包含一个axes对象。axis对象包含两个类型为line、patch的对象。

放大到更小的区域以查看间隔估计。

Idx_roi = 21:30;xlim ([x (idx_roi (1), 1) x (idx_roi(结束),2)))

图中包含一个axes对象。axis对象包含两个类型为line、patch的对象。

显示相应的x而且f值。

表(idx_roi ', x (idx_roi:), f (idx_roi:)...“VariableNames”, {“指数”“x”'Empirical cdf F(x)'})
ans =10×3表Index x Empirical cdf F(x) _____ ______________ __________________ 21 377.5 378.5 0.069909 22 382.5 383.5 0.075988 23 384.5 385.5 0.079027 24 390.5 391.5 0.082067 25 395.5 396.5 0.085106 26 397.5 398.5 0.091185 27 400.5 401.5 0.094225 28 401.5 402.5 0.097264 29 403.5 404.5 0.10334 30 409.5 410.5 0.10638

阴影矩形表示相应区间内经验cdf值F(x)的变化。例如,放大图中左边第二个阴影矩形对应于区间(382.5,383.5)。F(382.5)为0.075988,F(383.5)为0.079027,从0.075988到0.079027的变化发生在区间(382.5,383.5)。改变的确切时间还不确定。

可以用不同的方法绘制区间估计值。如果假设概率变化发生在每个区间的开始,则可以使用x的第一列绘制F(x)值。

图楼梯(x(:,1),f)"概率一开始就改变了")包含(“x”) ylabel (“F (x)”) xlim([x(idx_roi(1),1) x(idx_roi(end),2)])

图中包含一个axes对象。标题为“概率”的axis对象在开始时包含一个类型为stair的对象。

或者,您可以使用x的第二列绘制F(x)值,并假设概率变化发生在每个区间的末尾。

图楼梯(x(:,2),f)"最后概率会改变")包含(“x”) ylabel (“F (x)”) xlim([x(idx_roi(1),1) x(idx_roi(end),2)])

图中包含一个axes对象。标题为概率变化的axis对象在末尾包含一个类型为stair的对象。

结合前面的两个图来形象化间隔。

图楼梯(x(:,1),f)保持楼梯(x (:, 2), f)标题("概率在区间内变化")包含(“x”) ylabel (“F (x)”) xlim([x(idx_roi(1),1) x(idx_roi(end),2)])保持

图中包含一个axes对象。具有标题概率变化的axis对象在间隔中包含2个类型为stair的对象。

计算数据的经验累积分布函数(cdf),并使用经验cdf的近似值创建分段线性分布对象。

加载样例数据。使用直方图可视化患者体重数据。

负载病人直方图(重量(strcmp(性别、“女”)))直方图(重量(strcmp(性别、“男”)))传说(“女”“男”

图中包含一个axes对象。坐标轴对象包含两个直方图类型的对象。这些物品代表女性、男性。

直方图显示数据有两种模式,一种是女性患者模式,一种是男性患者模式。

计算数据的经验cdf。

[f,x] = ecdf(权重);

通过每5个点取一个值来构造经验cdf的分段线性近似。

F = F (1:5:end);X = X (1:5:end);

绘制经验cdf和近似。

图ecdf(重量)保持情节(x, f,“ko - - - - - -”“MarkerFace”“r”)传说(“经验提供”“分段线性逼近”...“位置”“最佳”

图中包含一个axes对象。坐标轴对象包含两个类型为stair、line的对象。这些对象代表经验cdf,分段线性近似。

使用经验cdf的分段近似创建一个分段线性概率分布对象。

Pd = makedist(“PiecewiseLinear”“x”, x,“外汇”f)
pd =分段线性分布F(111) = 0 F(118) = 0.05 F(124) = 0.13 F(130) = 0.25 F(135) = 0.37 F(142) = 0.5 F(163) = 0.55 F(171) = 0.61 F(178) = 0.7 F(183) = 0.82 F(189) = 0.94 F(202) = 1

从分布中生成100个随机数。

rng (“默认”%用于重现性Rw = random(pd,[100,1]);

绘制随机数图以直观地比较它们与原始数据的分布。

图直方图(权重)保持直方图(rw)传说(“原始数据”生成的数据的

图中包含一个axes对象。坐标轴对象包含两个直方图类型的对象。这些对象表示原始数据、生成数据。

由分段线性分布生成的随机数具有与原始数据相同的双峰分布。

输入参数

全部折叠

样本数据和审查信息,指定为样本数据的向量或样本数据和审查信息的两列矩阵。

方法可以指定示例数据的审查信息y参数或审查名称-值参数。ecdf忽略了审查参数值ify是一个两列矩阵。

指定y作为矢量或两列矩阵取决于观察的审查类型y

  • 完全观察数据-指定y作为样本数据的向量。

  • 包含完全观察到的、左删减的或右删减的观察的数据-指定y作为样本数据的向量,并指定审查名称-值参数作为包含每个观察的审查信息的向量。的审查Vector可以包含0、-1和1,分别表示完全观测、左截尾和右截尾观测。

  • 包含间隔截尾观测的数据-指定y作为样本数据和审查信息的两列矩阵。每一行y指定每个观察结果的可能存活时间或故障时间的范围,并且可以有这些值中的一个。

    • (t, t)-在t

    • (负无穷,t)-删减至t

    • (t,正)-删减版权于t

    • [t1t2-删减之间[t1t2,在那里t1<t2

ecdf忽略了y.此外,任何审查向量中的值(审查)或频率矢量(频率)原因ecdf中的相应行忽略y

数据类型:|

所指向的图的目标轴ecdf情节,指定为对象。

例如,如果h是一个目标那就找个对象吧ecdf可以绘制出如下示例中所示的图形。

例子:ecdf (h, x)

名称-值参数

指定可选参数对为Name1 = Value1,…,以=家,在那里的名字参数名称和价值对应的值。名-值参数必须出现在其他参数之后,但对的顺序并不重要。

在R2021a之前,名称和值之间用逗号隔开,并括起来的名字在报价。

例子:“审查”,c,“功能”,“累积风险”、“阿尔法”,0.025,“边界”,“上”指示ecdf返回累积危害函数和97.5%置信限,其中包含向量指定的截尾数据c

返回的函数的类型ecdf,指定为这些值之一。

价值 描述
“提供”(默认) 累积分布函数
“幸存者” 幸存者函数
“累积风险” 累积危害函数

例子:“函数”、“累积风险的

截尾数据的指示器,指定为由0、-1和1组成的向量,分别表示完全观测、左截尾和右截尾观测。的每个元素审查中对应观测的审查状态y.的审查值的大小必须与y.默认值是0向量,表示所有观察结果都被完全观察到。

您不能使用此参数指定间隔审查观察。如果样本数据包括间隔截尾观测,则指定y使用双列矩阵。ecdf忽略了审查如果价值y是一个两列矩阵。

ecdf忽略任何一个审查向量中的值。此外,任何y或者频率向量(频率)原因ecdf忽略审查向量中的对应值。

例子:审查,审查,在那里审查是一个包含审查信息的向量。

数据类型:逻辑||

观察的频率,指定为具有相同行数的非负整数计数的向量y.的j的第Th元素频率的次数j第一行y被观察到。默认值是1的向量,表示每一行一个观测值y

ecdf忽略任何一个频率矢量中的值。此外,任何y或截尾向量(审查)原因ecdf忽略频率向量中相应的值。

例子:的频率,频率,在那里频率是一个包含观测频率的向量。

数据类型:|

最大迭代次数,指定为正整数。此论点仅对双重截尾数据和间隔截尾数据有效。

例子:e5 IterationLimit, 1

数据类型:|

函数值上的终止公差f,指定为正标量。此论点仅对双重截尾数据和间隔截尾数据有效。

例子:“宽容”,1 e-5

数据类型:|

迭代凸小步(ICM)的频率,指定为正整数。此论证仅对间隔截尾数据有效。

ecdf采用了期望最大化迭代凸小量(EMICM)算法[5]计算输出f对于间隔截尾数据。EMICM算法在每次迭代中使用EM算法或ICM算法。ecdf每指定迭代次数运行ICM步骤。例如,默认情况下,ecdf迭代EM步骤9次,运行一次ICM步骤,然后返回EM步骤。

例子:“ICMFrequency”,1

数据类型:|

被评估函数的置信区间的显著性水平,指定为(0,1)范围内的标量。默认值为0.05表示95%的置信度。对于一个给定的值α,置信水平为100(1 - Alpha)%.

这个论证对于间隔截尾数据是无效的。

例子:“阿尔法”,0.01将置信度指定为99%。

数据类型:|

在图中包含置信度界限的指示器,指定为这些值之一。

价值 描述
“关闭”(默认) 省略置信界限。
“上” 包括置信界限。

这个论证对于间隔截尾数据是无效的。

请注意

这个论点只适用于绘图。

例子:“界限”,“上”

输出参数

全部折叠

中的点或区间上的函数值x,作为列向量返回。

  • 点估计表明函数值在x(我)f(我)

  • 区间估计表示函数值从f(张)f(我)在间隔时间内x (1)x(我,2).改变的确切时间还不确定。示例请参见区间截尾数据的经验cdf

的函数类型f可以是CDF(默认),幸存者函数,或累积危害函数的规定函数名称-值参数。

计算点或区间,分别指定为列向量或双列矩阵。

  • ecdf返回完全观察、左截、右截和双截的数据的列向量。

    • 对于完全观察、左删减和右删减的数据,ecdf从中移除经过审查的观察值y,对剩下的值进行排序,删除已排序值中的重复值,并将结果保存到输出中x

    • 对于双重截尾数据,ecdf确定的值y与事件时间对应,对值进行排序,删除已排序值中的重复值,并将结果保存到输出中x

    输出x的最小值y作为它的前两个值。的输出绘图时,这两个值很有用ecdf使用楼梯函数。

  • ecdf返回间隔截尾数据的双列矩阵。ecdf计算函数值f间隔称为特恩布尔间隔。详情请参见算法

作为列向量返回的被求值函数的置信下限。ecdf计算每个观察值的边界。弗洛不是曲线的同步边界。

这个论证对于间隔截尾数据是无效的。

作为列向量返回的被评估函数的上置信界。ecdf计算每个观察值的边界。管理方不是曲线的同步边界。

这个论证对于间隔截尾数据是无效的。

更多关于

全部折叠

审查类型

ecdf金宝app支持左审查、右审查和间隔审查的观察。

  • 左删减的观察t—事件发生在时间之前t,确切的事件时间未知。

  • 当时的正确审查观察t—事件发生在时间之后t,确切的事件时间未知。

  • 在间隔内进行间隔删减观察[t1t2—事件发生在时间之后t1在时间到来之前t2,确切的事件时间未知。

双截尾数据包括左截尾和右截尾观测。

幸存者函数

生存函数是生存概率作为时间的函数。它也被称为幸存者函数。

生存函数给出了个体生存时间超过某一值的概率。因为累积分布函数Ft)为存活时间小于或等于某一给定点的概率t在时间上,生存函数为连续分布年代t)为累积分布函数的补:年代t) = 1 -Ft

累积危害函数

危害函数ht个体的瞬时失败率是否以个体存活到给定时间为条件。累积危害函数Ht累积危害到时间了吗t

h t lim Δ t 0 P t T < t + Δ t | T t Δ t

H t 0 t h u d u

危险函数总是取一个正的值。然而,这些值并不对应于概率,可能大于1。

累积危害函数值可从幸存者函数年代t使用关系年代t= exp(- .Ht))

算法

ecdf计算函数值(f)和置信界限(弗洛而且管理方)使用不同的算法,视乎审查资料而定。的函数类型f可以是CDF(默认),幸存者函数,或累积危害函数的规定函数名称-值参数。

审查类型 算法f 算法弗洛而且管理方
右截尾数据,包含完全观测或右截尾观测
  • 对cdf和幸存者函数值使用Kaplan-Meier估计。

    Kaplan-Meier估计 年代 t

    年代 t t < t r d r

    在哪里r观察的数量在时间上有风险吗t,d失败的次数是否与时间一致t.有关更多细节,请参见kaplan meier方法

  • 对累积危险函数值使用Nelson-Aalen估计。

    Nelson-Aalen估计量由

    H t t < t d r

使用Greenwood公式,它是Kaplan-Meier估计量方差的近似。

方差估计由

V 年代 t 年代 2 t t < t d r r d

左截尾数据,包含完全观测或左截尾观测

使用Kaplan-Meier估计。

使用格林伍德的公式。

双截尾数据,包括右截尾和左截尾观测

使用特恩布尔算法[3][4].您可以指定迭代的最大次数(IterationLimit)和函数值上的终止公差(宽容)为算法。

使用费雪信息矩阵。

间隔截尾数据,包括间隔截尾观测
  • 采用期望最大化迭代凸极小(EMICM)算法[5].EMICM算法在每次迭代中使用EM算法或ICM算法。的ICMFrequency参数name-value决定ICM算法的频率。ecdf每指定迭代次数运行ICM步骤。默认情况下,ecdf迭代EM步骤9次,运行一次ICM步骤,然后返回EM步骤。您可以指定迭代的最大次数(IterationLimit)和函数值上的终止公差(宽容)为算法。

  • ecdf从两列矩阵数据构造相互不相交的区间,称为特恩布尔区间y,并返回Turnbull间隔(x)及预算(f)的间隔。区间的左界来自的第一列y的第二列为区间的右界y.对于完全观察到的结果(对于具有两个相同值的行[t t]),函数转换[t t][t-eps t (t))在构造特恩布尔区间之前创建一个长度非零的区间。

不支持金宝app

参考文献

[1]考克斯,D. R.和D.奥克斯。生存数据分析.伦敦:查普曼&霍尔出版社,1984年。

[2]劳利斯(j.f。寿命数据的统计模型和方法.第二版,霍博肯,新泽西州:约翰·威利父子公司,2003年。

[3]克莱因,约翰·P·梅尔文·l·莫什伯格。生存分析:截尾和截断数据的技术。2版。生物和健康统计。纽约:施普林格,2003。

[4]特恩布尔,布鲁斯W。双截尾数据生存函数的非参数估计。美国统计协会杂志《科学通报》,第45期(1974):169-73。

[5]安德森-伯格曼,克利福德。区间截尾NPMLE的EMICM算法的有效实现。计算与图形统计杂志26日,没有。2(2017年4月3日):463-67。

[6]威尔,詹姆斯·H.和大卫·l·德梅兹。"一些狒狒后裔数据的再分析"生物识别技术32岁的没有。2(1976年6月):459-63。

扩展功能

版本历史

R2006a之前介绍过