主要内容

使用灵活的分布族生成数据

这个例子展示了如何使用Pearson和Johnson分布系统生成数据。

皮尔逊和约翰逊系统公司

如中所述使用概率分布,选择适当的参数化分布族来为数据建模可以基于先验的后验了解数据生成过程,但选择往往很困难皮尔逊和约翰逊系统公司这样的选择是不必要的。每个系统都是一个灵活的参数化分布族,包含各种分布形状,通常可以在这两个系统中的一个系统中找到一个与数据匹配良好的分布。

数据输入

以下参数定义了Pearson和Johnson系统的每个成员。

这些统计数据也可以使用片刻约翰逊系统虽然基于这四个参数,但更自然地用分位数来描述,分位数由分位数作用

这个皮尔斯兰德约翰斯兰德函数接受定义分布的输入参数(分别为参数或分位数),并返回相应系统中分布的类型和系数。这两个函数还根据指定的分布生成随机数。

例如,将数据加载到卡比格垫,其中包括一个变量MPG包含每辆车的汽油里程测量值。

负载卡比格MPG=MPG(~isnan(MPG));直方图(MPG,15)

图中包含一个轴对象。轴对象包含直方图类型的对象。

以下两部分分别对Pearson和Johnson系统成员的分布进行建模。

使用Pearson系统生成数据

统计学家卡尔·皮尔森(Karl Pearson)设计了一个分布系统或分布族,其中包括一个唯一的分布,对应于均值、标准差、偏度和峰度的每个有效组合。如果从数据中计算每一个矩的样本值,则很容易在Pearson系统中找到匹配这四个矩的分布,并生成随机样本。

Pearson系统将七种基本分布类型嵌入到一个参数框架中,包括普通分布,如正态分布和负态分布 T 分布,标准分布的简单变换,如移位和缩放贝塔分布和反伽马分布,以及一种不是任何标准分布简单变换的IV型分布。

对于给定的一组矩,系统中不存在具有相同前四个矩的分布,并且Pearson系统中的分布可能与您的数据不匹配,特别是如果数据是多模态的。但该系统覆盖了广泛的分布形状,包括对称分布和偏态分布。

从Pearson分布中生成与MPG数据,只需计算四个样本矩,并将其视为分布参数。

矩={平均值(MPG)、标准差(MPG)、偏度(MPG)、峰度(MPG)};rng(“默认”)%为了再现性[r,type]=pearsrnd(矩{:},10000,1);

来自的可选第二个输出皮尔斯兰德指示皮尔逊系统中哪种类型的分布与矩的组合相匹配。

类型
类型=1

在这种情况下,,皮尔斯兰德已确定数据最好用I型Pearson分布来描述,这是一种移位、缩放的贝塔分布。

通过叠加经验累积分布函数,验证样本与原始数据相似。

ecdf(MPG);[Fi,xi]=ecdf(r);保持在…上;楼梯(xi、Fi、,“r”);持有

图中包含一个轴对象。轴对象包含两个楼梯类型的对象。

使用Johnson系统生成数据

统计学家诺曼·约翰逊(Norman Johnson)设计了一个不同的分布系统,该系统还包括平均值、标准偏差、偏度和峰度的每个有效组合的唯一分布。然而,由于使用分位数来描述约翰逊系统中的分布更为自然,因此使用该系统与使用分位数不同皮尔逊系统。

约翰逊系统基于一个正态随机变量的三种可能的变换,加上恒等式变换。这三个重要案例被称为SL,某人,对应于指数、逻辑和双曲正弦变换。三者都可以写成

X = γ + δ Γ ( Z - ξ λ )

哪里 Z 是标准正态随机变量, Γ 是转型,以及 γ , δ , ξ λ 是比例和位置参数。第四个案例,,是身份转换。

从符合以下条件的Johnson分布生成样本:MPG数据,首先定义四个分位数,四个等距标准正态分位数-1.5、-0.5、0.5和1.5应转换为四个分位数。也就是说,计算数据的样本分位数的累积概率为0.067、0.309、0.691和0.933。

probs=normcdf([-1.5-0.50.51.5])
问题=1×40.0668 0.3085 0.6915 0.9332
分位数=分位数(MPG,probs)
分位数=1×413.0000 18.0000 27.2000 36.0000

然后将这些分位数作为分布参数。

[r1,类型]=johnsrnd(分位数,10000,1);

来自的可选第二个输出约翰斯兰德指示Johnson系统中与分位数匹配的分布类型。

类型
类型='SB'

通过叠加经验累积分布函数,可以验证样本是否与原始数据相似。

ecdf(MPG);[Fi,xi]=ecdf(r1);持有在…上;楼梯(xi、Fi、,“r”);持有

图中包含一个轴对象。轴对象包含两个楼梯类型的对象。

在某些应用中,在数据的某些区域比在其他区域更好地匹配分位数可能很重要。为此,请指定要匹配数据的四个等距标准法线分位数,而不是默认值-1.5、-0.5、0.5和1.5。例如,您可能更关心匹配右尾中的数据而不是左尾中的数据,因此您可以指定强调右尾的标准法线分位数。

qnorm=[-.5.25 1 1.75];probs=normcdf(qnorm);qemp=分位数(MPG,probs);r2=johnsrnd([qnorm;qemp],10000,1);

然而,虽然新样本在右尾与原始数据匹配得更好,但在左尾与原始数据匹配得更差。

[Fj,xj]=ecdf(r2);持有在…上; 楼梯(xj、Fj、,“g”);持有

图中包含一个轴对象。“轴”对象包含3个楼梯类型的对象。

另见

||