主要内容

使用灵活的家庭生成数据分布

这个例子展示了如何使用皮尔逊和约翰逊系统生成数据的分布。

皮尔森和约翰逊系统

中描述的使用概率分布,选择一个适当的参数的分布模型可以根据你的数据先天的后验data-producing的知识的过程,但往往是艰难的选择。的皮尔森和约翰逊系统可以做出这样一个选择是不必要的。每个系统是一个灵活的参数的分布,包括广泛的分布形状,它通常是有可能找到一个分布在这两个系统,提供了一个很好的匹配你的数据。

数据输入

以下参数定义的每个成员皮尔森和约翰逊系统。

这些统计数据也可以计算的时刻函数。约翰逊系统,而这四个参数的基础上,使用分位数描述更自然,估计的分位数函数。

pearsrndjohnsrnd函数把输入参数定义一个分布(分别为参数或分位数)和返回的类型和系数分布在相应的系统。还两个函数产生随机数从指定的分布。

作为一个例子,加载数据carbig.mat,其中包括一个变量英里/加仑包含测量每辆车的油耗。

负载carbig英里/加仑= MPG (~ isnan (MPG));直方图(MPG, 15)

图包含一个坐标轴对象。坐标轴对象包含一个直方图类型的对象。

以下两部分模型与皮尔森和约翰逊的成员系统分布,分别。

用皮尔森系统生成数据

统计学家卡尔·皮尔森设计了一个系统,或家庭,发行版包括一个独特的分布对应于每个有效结合的意思是,标准差,偏态和峰态。如果你计算样本值为每个这些时刻的数据,很容易找到匹配的皮尔逊分布系统,这四个时刻,生成一个随机样本。

皮尔森系统嵌入七种基本类型的分布在一个参数框架。它包括如正常和常见的分布 t 分布,简单的转换标准的分布比例如转移和贝塔分布以及逆伽马分布,一个分布类型iv型飞机,并不是任何标准分布的一个简单的转换。

对于一个给定的时刻,有分布不系统,也有相同的前四个时刻,和皮尔逊分布系统可能不是一个好的匹配你的数据,特别是如果是多通道的数据。但系统覆盖范围广泛的分布形状,包括对称和倾斜分布。

生成一个样本的皮尔逊分布密切匹配英里/加仑数据,只需计算出四个样品的时刻和治疗这些分布参数。

时刻= {(MPG),性病(MPG),偏态(MPG),峰度(MPG)};rng (“默认”)%的再现性[r,类型]= pearsrnd(10000年时刻{:},1);

可选的第二个输出pearsrnd皮尔森系统中的显示哪种类型的分布匹配相结合的时刻。

类型
类型= 1

在这种情况下,pearsrnd已确定,数据是最好的描述我皮尔逊分布类型,这是一个转变,贝塔分布。

验证样品与原始数据通过覆盖经验累积分布函数。

ecdf (MPG);[Fi, xi] = ecdf (r);持有;楼梯(xi, Fi,“r”);持有

图包含一个坐标轴对象。坐标轴对象包含x, ylabel F (x)包含2楼梯类型的对象。

用约翰逊系统生成数据

分布的统计学家诺曼·约翰逊设计了一个不同的系统,还包括一个独特的分布为每个有效结合的意思是,标准差,偏态和峰态。然而,因为它是更自然的使用分位数描述在约翰逊分布系统,使用该系统比使用皮尔逊系统是不同的。

约翰逊系统是基于一个正常随机变量的三种可能的转换,加上恒等变换。三个重要的情况下被称为SL,,某人,对应于指数、物流和双曲正弦转换。这三个可以写成

X = γ + δ Γ ( Z - - - - - - ξ λ )

在哪里 Z 是标准正态随机变量, Γ 是转换, γ , δ , ξ , λ 是规模和位置参数。第四个病例,SN是恒等变换。

生成一个样本约翰逊分布相匹配的英里/加仑数据,首先定义的四分位数的四个等间距的标准正态分位数-1.5,-0.5,0.5,1.5应该改变了。你计算的数据的样本分位数的累积概率0.067,0.309,0.691和0.933。

聚合氯化铝= normcdf ([-1.5 - -0.5 0.5 - 1.5])
聚合氯化铝=1×40.0668 0.3085 0.6915 0.9332
分位数=分位数(MPG,聚合氯化铝)
分位数=1×413.0000 18.0000 27.2000 36.0000

然后把这些分位点分布参数。

(r1、类型)= johnsrnd(分位数,10000年,1);

可选的第二个输出johnsrnd约翰逊系统中的显示哪种类型的分布分位数相匹配。

类型
类型=“某人”

您可以验证示例类似于原始数据通过覆盖经验累积分布函数。

ecdf (MPG);[Fi, xi] = ecdf (r1);持有;楼梯(xi, Fi,“r”);持有

图包含一个坐标轴对象。坐标轴对象包含x, ylabel F (x)包含2楼梯类型的对象。

在某些应用程序中,这可能是重要的匹配分位数比别人更好的在一些地区的数据。,指定四个等间距的标准正态分位数的你想匹配的数据,而不是默认的-1.5,-0.5,0.5和1.5。例如,您可能更关心数据匹配正确的尾巴比在左边,所以你指定标准正态分位数,强调正确的尾巴。

qnorm = (-。5为1 1.75);聚合氯化铝= normcdf (qnorm);qemp =分位数(MPG,聚合氯化铝);r2 = johnsrnd ([qnorm;qemp), 10000, (1);

然而,尽管新样本匹配原始数据更好的正确的尾巴,它在左尾匹配更糟。

[Fj, xj] = ecdf (r2);持有;楼梯(Fj xj,‘g’);持有

图包含一个坐标轴对象。坐标轴对象包含x, ylabel F (x)包含3个楼梯类型的对象。

另请参阅

||