用广义帕吻码分布建模尾数据

打开脚本

此示例显示如何通过最大似然估计将尾数据适合通用的帕带分布。

将参数分布拟合到数据有时会导致与高密度区域中的数据相当的模型，但在低密度的区域中具有差。对于单向分布，例如正常或学生的T，这些低密度区域被称为分布的“尾部”。模型可能在尾部不适合的一个原因是，根据定义，在基于模型选择的尾部中存在较少的数据，因此通常基于它们在模式附近的数据的能力来选择模型。另一个原因可能是真实数据的分布通常比通常的参数模型更复杂。

但是，在许多应用中，在尾部拟合数据是主要关注点。广义的帕吻码分布（GP）是基于理论论点模拟各种分布的分布的分布。涉及GP的分配拟合的一种方法是在存在许多观察的区域中使用非参数拟合（例如，经验累积分布函数，例如），并且将GP拟合到数据的尾部。

广义帕累托分布

广义帕累托（GP）是一种右偏斜的分布，用形状参数，k和Sigma，Sigma参数化。k也被称为“尾索引”参数，可以是正，零或负的。

x = linspace（0,10,1000）;绘图（x，gppdf（x， - 。4,1），' - '，x，gppdf（x，0,1），' - '，x，gppdf（x，2,1），' - '）;Xlabel（'x / sigma'）;ylabel（'概率密度'）;传奇（{'k <0''k = 0''k> 0'}）;

请注意，对于K <0，GP具有高于 - （1 / k）上限的零概率。对于k> = 0，GP没有上限。而且，GP通常与第三个阈值参数结合使用，该参数将下限远离零移动。我们在这里不需要这种一般性。

GP分布是指数分布（k = 0）和静脉分布（k> 0）的概括。GP包括较大家庭中的这两个分布，使得可以连续的形状范围。

模拟超标数据

GP分布可以在超标方面建设性地定义。从右尾下降到零的概率分布开始，例如正常，我们可以独立地从该分布上采样随机值。如果我们修复阈值，请抛出阈值以下的所有值，并将其减去未抛出的值的阈值，结果称为forecess。超标的分布大约是GP。同样，我们可以在分布的左尾部设置阈值，并忽略上面的所有值。阈值必须足够远，以原始分布的尾部，近似是合理的。

原始分布确定产生的GP分布的形状参数k k。作为多项式脱落的分布，例如学生的T，导致正形参数。分布尾部指数减小，例如正常，对应于零形式参数。具有有限尾部的分布，例如Beta，对应于负形参数。

GP分布的现实世界应用包括对股票市场的极端恢复，并建模极端洪水。对于此示例，我们将使用从学生的T分布生成的模拟数据，其中5度自由。我们将从T分配中获得最大的2000年的2000年观察结果，然后减去95％的量级以获得超标。

RNG（3，'twister'）;X = TRND（5,2000,1）;q = smianile（x，.95）;y = x（x> q） -  q;n = numel（y）

n = 100.

使用最大可能性拟合分配

GP分布定义为0

paramests = gpfit（y）;Khat = Paramests（1）％尾索引参数Sigmahat = Paramests（2）％SCALE参数

Khat = 0.0987 Sigmahat = 0.7156

如可以预期的那样，由于使用T分布生成模拟数据，因此k的估计是正的。

在视觉上检查拟合

在视觉上评估合适的良好，我们将绘制尾部数据的缩放直方图，覆盖我们估计的GP的密度函数。直方图被缩放，使得条形高度将其宽度和1倍。

箱= 0：.25：7;H = BAR（箱，HISTC（Y，箱）/（长度（y）*。25），'histc'）;h.facecolor = [.9 .9 .9];ygrid = linspace（0,1.1 * max（y），100）;线（Ygrid，GPPDF（Ygrid，Khat，Sigmahat））;XLIM（[0,6]）;Xlabel（“超越”）;ylabel（'概率密度'）;

我们使用了一个相当小的垃圾箱宽度，因此直方图中存在很多噪声。即便如此，拟合密度遵循数据的形状，因此GP模型似乎是一个不错的选择。

我们还可以将实证CDF与合身的CDF进行比较。

[f，yi] = ecdf（y）;情节（yi，gpcdf（yi，khat，sigmahat），' - '）;抓住在;楼梯（yi，f，'r'）;抓住离开;传奇（'普遍的Pareto CDF'那'经验CDF'那'地点'那'东南'）;

计算参数估计的标准错误

为了量化估计的精度，我们将使用从最大似然估计器的渐近协方差矩阵计算的标准错误。功能适合计算，作为其第二输出，对该协方差矩阵的数值近似。或者，我们可以叫GPFIT.具有两个输出参数，它将返回参数的置信区间。

[nll，acov] = gplike（paramests，y）;stderr = sqrt（diag（acov））

STDERR = 0.1158 0.1093

这些标准误差表明估计的估计的相对精度比Sigma的相对精度较低 - 其标准错误是估计本身的顺序。形状参数通常难以估计。重要的是要记住，计算这些标准错误的计算假定GP模型是正确的，并且我们有足够的数据用于保持协方差矩阵的渐变近似。

检查渐近常态假设

对标准错误的解释通常涉及假设，如果可以在来自相同源的数据上重复相同的拟合，则参数的最大似然估计大致遵循正态分布。例如，置信区间通常基于这种假设。

然而，正常近似可能或可能不是一个好的。为了评估在此示例中的好处，我们可以使用引导仿真。我们将通过从数据重新采样来生成1000个复制数据集，适合每个GP分发，并保存所有复制估计。

Replests = bootstrp（1000，@ gpfit，y）;

作为对参数估计器的采样分布的粗略检查，我们可以查看Bootstrap复制的直方图。

子图（2,1,1）;steg（重叠（：，1））;标题（'k'的引导估计）;子图（2,1,2）;steg（重叠（：，2））;标题（'Sigma的Bootstrap估计）;

使用参数转换

k的引导估计的直方图似乎只有一点不对称，而Sigma估计肯定会偏向右侧。对于该偏斜的常见补救措施是估计日志比例上的参数及其标准错误，其中正常近似可能更合理。Q-Q图是评估正常性的更好方法，而不是直方图，因为非正常性显示为不近似遵循直线的点。让我们检查Sigma的日志变换是否合适。

子图（1,2,1）;qqplot（重票（：，1））;标题（'k'的引导估计）;子图（1,2,2）;qqplot（log（更换（:,2）））;标题（'log（sigma）'的引导估计）;

k和log（sigma）的引导估计似乎可接受地接近正常性。一个Q-Q图对于ΣIigma的估计，在未完成的比例上，将确认我们在直方图中已经看到的偏差。因此，通过首先在正常性的假设下通过首先计算一个用于日志（Sigma）来构造Sigma的置信区间，然后以指代以将该间隔转换回Sigma的原始比例来构建一个用于日志（Sigma）来构建一个用于对日志（Sigma）来构造一个置信区间。

事实上，这正是这个功能GPFIT.在幕后做。

[paramests，paramci] = gpfit（y）;

Khat KCI = PARAPCI（：，1）

Khat = 0.0987 KCI = -0.1283 0.3258

sigmahat sigmaci = paramci（:,2）

Sigmahat = 0.7156 sigmaci = 0.5305 0.9654

请注意，虽然k的95％置信区间对对称的最大可能性估计，但Sigma的置信区间不是。那是因为它是通过转换对称CI来创建的日志（Sigma）。