主要内容

尾部造型与广义帕累托分布数据

这个例子展示了如何适应尾巴数据最大似然估计的广义帕累托分布。

有时数据拟合参数分布结果与数据模型中,同意在高密度地区,但在地区的低密度差。对于单峰分布,如正常或学生的t,这些低密度区域被称为“尾巴”的分布。一个模型的一个原因可能适应不佳的反面是,根据定义,数据少的尾巴基地选择模型,因此模型往往选择基于他们的能力以适应数据附近的模式。另一个原因可能是,真实数据的分布往往是更复杂的比通常的参数模型。

然而,在许多应用程序中,数据拟合的尾巴是主要的问题。广义帕累托分布(GP)是作为一个分布,可以开发模型尾广泛的分布,基于理论参数。分布拟合的一种方法,包括全科医生是使用非参数符合(例如,经验累积分布函数)的地区,有许多观察,并符合GP的尾巴(s)数据。

广义帕累托分布

广义帕累托(GP)是一个右偏态分布,参数化形状参数,k,和尺度参数σ。k也被称为“尾指数”参数,并且可以积极、零或负。

x = linspace (0, 1000);情节(x, gppdf (x,。4, 1),“- - -”x, x, gppdf (0, 1),“- - -”,x, gppdf (x 2 1),“- - -”);包含(“x /σ”);ylabel (的概率密度);传奇({“k < 0”“k = 0”“k > 0”});

注意,k < 0,全科医生为零的概率高于上限——(1 / k)。对于k > = 0,医生没有上限。同时,医生往往是结合使用第三,下限阈值参数变化从零。我们将不需要普遍性。

GP分布是一个泛化的指数分布(k = 0)和帕累托分布(k > 0)。医生包括这两个分布在一个大的家庭,这样一个连续范围的形状是可能的。

模拟超过数数据

GP分布可以定义建设性地超过数点。从正确的概率分布尾部下降为零,如正常,我们可以独立样本随机值的分布。如果我们确定一个阈值,扔掉所有的值都低于阈值,再减去阈值的值,不抛弃,结果被称为超过数点。的分布超过数点大约是医生。同样的,我们可以设置一个阈值在左尾分布,而忽略所有值高于阈值。阈值必须足够远的尾巴的原始分布近似是合理的。

原来的分布决定了形状参数k的GP分布。作为一个多项式分布的尾部脱落,如学生的t,导致积极的形状参数。分布的尾部指数下降,如正常,对应于一个零形状参数。分布与有限的反面,如β,对应负的形状参数。

GP分布的实际应用程序包括造型极端的股市回报,和造型极端洪水。对于这个示例,我们将使用模拟数据,从一个学生的生成t分布与5自由度。我们将最大的5%的2000 t分布的观察,然后减去95%分位数超过数点。

rng (3“旋风”);x = trnd (2000 1);q =分位数(x, .95);y = x (x > q - q;n =元素个数(y)
n = 100

使用最大似然拟合分布

GP分布定义为0 k <σ,从< < Inf。然而,解释结果的最大似然估计是有问题的,当k < 1/2。幸运的是,这种情况下对应合适的尾巴从发行版测试版或三角形,所以不会存在问题。

paramEsts = gpfit (y);阿拉伯茶= paramEsts (1)%尾指数参数sigmaHat = paramEsts (2)%尺度参数
阿拉伯茶= 0.0987 sigmaHat = 0.7156

正如所料,由于模拟数据生成使用t分布、k的估计是正的。

检查符合视觉

视觉评估的有多好,我们策划了尾巴的柱状图数据,覆盖密度函数的全科医生,我们估计。直方图是按比例缩小的,条形倍宽度总和为1。

垃圾箱= 0:.25:7;h =酒吧(垃圾箱,histc (y,垃圾箱)/ ((y) * .25长度),“histc”);h。FaceColor = [。9。9。9);ygrid = linspace(0, 1.1 *马克斯(y), 100);线(ygrid gppdf(阿拉伯茶,ygrid sigmaHat));xlim ([0, 6]);包含(“超过数”);ylabel (的概率密度);

我们使用一个相当小的宽度,所以有大量的噪音在直方图。即便如此,接下来的安装密度的形状数据,所以GP模型似乎是一个不错的选择。

我们还可以比较实证CDF安装它。

[F,彝族]= ecdf (y);情节(咦,gpcdf(咦,阿拉伯茶,sigmaHat),“- - -”);持有;楼梯(咦,F,“r”);持有;传奇(拟合广义帕累托提供的,“经验提供”,“位置”,“东南”);

计算参数估计的标准误差

量化的精度估计,我们将使用标准的错误计算极大似然估计的渐近协方差矩阵。这个函数gplike第二个输出,计算协方差矩阵的数值近似。或者,我们可以调用gpfit有两个输出参数,它将返回参数的置信区间。

(nll acov] = gplike (paramEsts y);stdErr =√诊断接头(acov))
stdErr = 0.1158 - 0.1093

这些标准错误表明的相对精度估计k是不少低于σ——估计的标准误差是本身。形状参数往往是很难估计的。重要的是要记住,这些标准错误的计算假定GP模型是正确的,而且我们有足够的数据协方差矩阵的渐近逼近。

检查渐近正态性假设

解释标准的错误通常涉及假设,如果同样的适合可以重复多次的数据来自同一来源,最大似然估计的参数近似服从正态分布。例如,置信区间通常是基于这样的假设。

然而,正常近似可能是也可能不是很好。评估是多么好的在这个例子中,我们可以使用一个引导模拟。我们将产生1000复制数据集的重采样数据,配合医生分发给每个人,并保存所有的复制的估计。

@gpfit replEsts = bootstrp(1000年,y);

作为一个粗略的检查的抽样分布参数估计,我们可以看看直方图的引导复制。

次要情节(2,1,1);嘘(replEsts (: 1));标题(“引导估计k”);次要情节(2,1,2);嘘(replEsts (:, 2));标题(“σ引导估计”);

使用一个参数转换

引导的直方图估计仅供k似乎有点不对称,而估计的σ肯定出现向右倾斜。常见的治疗,偏态是估计参数及其标准误差在对数尺度,在一个正常的近似可能更合理。qq的情节是一个更好的方法来评估常态直方图,大约因为non-normality显示为点,不遵循一条直线。让我们检查看看日志转换为σ是适当的。

次要情节(1、2、1);qqplot (replEsts (: 1));标题(“引导估计k”);次要情节(1、2、2);qqplot(日志(replEsts (:, 2)));标题(“引导日志(σ)的估计”);

引导估计k和日志(σ)出现可以接近正常。qq阴谋的估计σ,unlogged规模,将确认偏态,我们已经看到在直方图。因此,它更合理构造置信区间为σ首先计算一个日志(σ)正常的假设下,然后取幂变换为σ间隔回到原来的规模。

事实上,这正是函数gpfit在幕后。

[paramEsts, paramCI] = gpfit (y);
阿拉伯茶科= paramCI (: 1)
阿拉伯茶= 0.0987科0.3258 = -0.1283
sigmaHat sigmaCI = paramCI (:, 2)
sigmaHat = 0.7156 sigmaCI = 0.5305 - 0.9654

注意,而k是对称的95%置信区间的最大似然估计,置信区间西格玛不是。因为它是由转换一个对称的CI日志(σ)。