使用灵活的家庭生成数据分布
这个例子展示了如何使用皮尔逊和约翰逊系统生成数据的分布。
皮尔森和约翰逊系统
中描述的使用概率分布,选择一个适当的参数的分布模型可以根据你的数据先天的或后验data-producing的知识的过程,但往往是艰难的选择。的皮尔森和约翰逊系统可以做出这样一个选择是不必要的。每个系统是一个灵活的参数的分布,包括广泛的分布形状,它通常是有可能找到一个分布在这两个系统,提供了一个很好的匹配你的数据。
数据输入
以下参数定义的每个成员皮尔森和约翰逊系统。
这些统计数据也可以计算的时刻
函数。约翰逊系统,而这四个参数的基础上,使用分位数描述更自然,估计的分位数
函数。
的pearsrnd
和johnsrnd
函数把输入参数定义一个分布(分别为参数或分位数)和返回的类型和系数分布在相应的系统。还两个函数产生随机数从指定的分布。
作为一个例子,加载数据carbig.mat
,其中包括一个变量英里/加仑
包含测量每辆车的油耗。
负载carbig英里/加仑= MPG (~ isnan (MPG));直方图(MPG, 15)
以下两部分模型与皮尔森和约翰逊的成员系统分布,分别。
用皮尔森系统生成数据
统计学家卡尔·皮尔森设计了一个系统,或家庭,发行版包括一个独特的分布对应于每个有效结合的意思是,标准差,偏态和峰态。如果你计算样本值为每个这些时刻的数据,很容易找到匹配的皮尔逊分布系统,这四个时刻,生成一个随机样本。
皮尔森系统嵌入七种基本类型的分布在一个参数框架。它包括如正常和常见的分布 分布,简单的转换标准的分布比例如转移和贝塔分布以及逆伽马分布,一个分布类型iv型飞机,并不是任何标准分布的一个简单的转换。
对于一个给定的时刻,有分布不系统,也有相同的前四个时刻,和皮尔逊分布系统可能不是一个好的匹配你的数据,特别是如果是多通道的数据。但系统覆盖范围广泛的分布形状,包括对称和倾斜分布。
生成一个样本的皮尔逊分布密切匹配英里/加仑
数据,只需计算出四个样品的时刻和治疗这些分布参数。
时刻= {(MPG),性病(MPG),偏态(MPG),峰度(MPG)};rng (“默认”)%的再现性[r,类型]= pearsrnd(10000年时刻{:},1);
可选的第二个输出pearsrnd
皮尔森系统中的显示哪种类型的分布匹配相结合的时刻。
类型
类型= 1
在这种情况下,pearsrnd
已确定,数据是最好的描述我皮尔逊分布类型,这是一个转变,贝塔分布。
验证样品与原始数据通过覆盖经验累积分布函数。
ecdf (MPG);[Fi, xi] = ecdf (r);持有在;楼梯(xi, Fi,“r”);持有从
用约翰逊系统生成数据
分布的统计学家诺曼·约翰逊设计了一个不同的系统,还包括一个独特的分布为每个有效结合的意思是,标准差,偏态和峰态。然而,因为它是更自然的使用分位数描述在约翰逊分布系统,使用该系统比使用皮尔逊系统是不同的。
约翰逊系统是基于一个正常随机变量的三种可能的转换,加上恒等变换。三个重要的情况下被称为SL
,苏
,某人
,对应于指数、物流和双曲正弦转换。这三个可以写成
在哪里
是标准正态随机变量,
是转换,
,
,
,
是规模和位置参数。第四个病例,SN
是恒等变换。
生成一个样本约翰逊分布相匹配的英里/加仑
数据,首先定义的四分位数的四个等间距的标准正态分位数-1.5,-0.5,0.5,1.5应该改变了。你计算的数据的样本分位数的累积概率0.067,0.309,0.691和0.933。
聚合氯化铝= normcdf ([-1.5 - -0.5 0.5 - 1.5])
聚合氯化铝=1×40.0668 0.3085 0.6915 0.9332
分位数=分位数(MPG,聚合氯化铝)
分位数=1×413.0000 18.0000 27.2000 36.0000
然后把这些分位点分布参数。
(r1、类型)= johnsrnd(分位数,10000年,1);
可选的第二个输出johnsrnd
约翰逊系统中的显示哪种类型的分布分位数相匹配。
类型
类型=“某人”
您可以验证示例类似于原始数据通过覆盖经验累积分布函数。
ecdf (MPG);[Fi, xi] = ecdf (r1);持有在;楼梯(xi, Fi,“r”);持有从
在某些应用程序中,这可能是重要的匹配分位数比别人更好的在一些地区的数据。,指定四个等间距的标准正态分位数的你想匹配的数据,而不是默认的-1.5,-0.5,0.5和1.5。例如,您可能更关心数据匹配正确的尾巴比在左边,所以你指定标准正态分位数,强调正确的尾巴。
qnorm = (-。5为1 1.75);聚合氯化铝= normcdf (qnorm);qemp =分位数(MPG,聚合氯化铝);r2 = johnsrnd ([qnorm;qemp), 10000, (1);
然而,尽管新样本匹配原始数据更好的正确的尾巴,它在左尾匹配更糟。
[Fj, xj] = ecdf (r2);持有在;楼梯(Fj xj,‘g’);持有从