主要内容

このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

柔軟な分布族を使用してデ,タを生成

この例では,ピアソンおよびジョンソン分布システムを使用してデ,タを生成する方法を示します。

ピアソンシステムおよびジョンソンシステム

確率分布の操作で説明されたように,データをモデル化するために分布のパラメーター族を適切に選択する際,データ生成プロセスの“事前”または“事後”の知識をベ,スすることができます。しかし,この選択は容易ではありません。“ピアソンおよびジョンソンのシステム”により,そのような選択を不要にできます。どちらも分布形状が広範囲な,柔軟な分布パラメーター族であり,これら2つのシステムのいずれかのうちに,データによく一致する分布が検出できます。

デ,タ入力

以下のパラメ,タ,はピアソンおよびジョンソンシステムの各メンバ,を定義します。

  • 平均-的意思是により推定されます。

  • 標準偏差-性病により推定されます。

  • 歪度-偏态により推定されます。

  • 尖度-峰度により推定されます。

これらの統計は,関数时刻を使用して計算することもできます。ジョンソンシステムはこれらの4のパラメタに基づいていますが,関数分位数によって推定される分位数を使用すると,より自然に記述されます。

関数pearsrndおよびjohnsrndは,分布を定義する入力引数(それぞれパラメーターまたは分位数)を受け入れ,対応するシステムにおける分布のタイプと係数を返します。また,関数は両方とも,指定の分布から乱数を生成することができます。

例として,各自動車に対する燃費効率の測定を含む変数英里/加仑を含む,carbig.matにデ,タを読み込んでください。

负载carbigMPG = MPG(~isnan(MPG));直方图(MPG, 15)

图中包含一个轴对象。坐标轴对象包含一个直方图类型的对象。

以下の2つの節では,それぞれピアソンおよびジョンソンのシステムのメンバーをもつ分布をモデルにします。

ピアソンシステムを使用したデ,タの生成

統計学者卡尔·皮尔森は平均,標準偏差、歪度,尖度の適切な各組み合わせに対応する一意的な分布を含む,分布のシステムすなわち分布族を考案しました。データからこれらの各モーメントの標本の値を計算する場合,ピアソンシステムを使うことで,これら4つのモーメントに一致する分布を検出すると,無作為標本を容易に生成できます。

ピアソンシステムでは,7つの基本タイプの分布が一緒に1つのパラメトリックな枠組みに組み込まれています。これには,一般的な分布(正規分布や t 分布など),標準分布の簡単な変換(シフトおよびスケーリングされたベータ分布や逆ガンマ分布など),および標準分布の単純な変換ではない1つの分布(タイプIV)が含まれます。

取得されたモーメントの組み合わせに対して,最初の4つのモーメントが同じであっても,システムにない分布があります。さらに,特に,データが多様である場合,ピアソンシステムの分布はデータをうまく近似しないことがあります。しかし,システムは,対称分布と非対称分布の両方を含み,広範囲の分布形状をカバ,します。

英里/加仑データと厳密に一致するピアソン分布から標本を生成するには,単に,4つの標本モーメントを計算し,これらを分布のパラメーターとして取り扱います。

矩={均值(MPG),标准(MPG),偏度(MPG),峰度(MPG)};rng (“默认”%用于再现性[r,type] = pearsrnd(moments{:},10000,1);

pearsrndによる2番目の出力(オプション)は,ピアソンシステム内のどのタイプの分布がモーメントの組み合わせに一致するかを示します。

类型
Type = 1

この場合,pearsrndは,シフトとスケールされたベータ分布である,タイプ我のピアソン分布でデータがよく記述されることを判定しました。

経験的累積分布関数を重ね書きし,標本がオリジナルのデ,タに似ていることを確かめてください。

ecdf (MPG);[Fi,xi] = ecdf(r);持有;楼梯(xi, Fi,“r”);持有

图中包含一个轴对象。坐标轴对象包含2个楼梯类型的对象。

ジョンソンシステムを使用したデ,タの生成

統計学者诺曼·约翰逊はこれとは別の,平均,標準偏差、歪度,尖度のあらゆる有効な組み合わせに対応する固有の分布も含む,分布システムを考案しました。ただし,分位数を使ってジョンソンシステムの分布を記述する方がより自然である点において,このシステムでの処理はピアソンシステムによる処理とは異なります。

ジョンソンシステムは,1つの正規確率変数が取り得る3つの変換,それに加えての恒等変換に基づきます。重要な3の変換はSL某人として知られ,それぞれ,指数,ロジスティック,双曲正弦変換に対応しますこの3はすべて次のように記述できます。

X γ + δ Γ Z - ξ λ

ここで, Z は標準正規確率変数, Γ は変換, γ δ ξ および λ はスケルパラメタと位置パラメタです。4番目の変換SNは,恒等変換です。

英里/加仑データに一致するジョンソン分布から標本を作成するには,まつず4の分位数を,4つの等間隔の標準正規分位数-1.5,-0.5,0.5,1.5から変換して定義しまつす。まり,0.067,0.309,0.691,0.933の累積確率に対して,データの標本分位数を計算します。

Probs = normcdf([-1.5 -0.5 0.5 1.5])
聚合氯化铝=1×40.0668 0.3085 0.6915 0.9332
分位数=分位数(MPG,probs)
分位数=1×413.0000 18.0000 27.2000 36.0000

その後,それらの分位数を分布パラメ,タ,として扱います。

[r1,type] = johnsrnd(quantiles,10000,1);

johnsrndによる2番目の出力(オプション)は,ジョンソンシステム内のどのタイプの分布が分位数に一致するかを示します。

类型
type = 'SB'

経験的累積分布関数を重ね書きすることによって,標本がオリジナルのデータに似ていることを確かめることができます。

ecdf (MPG);[Fi,xi] = ecdf(r1);持有;楼梯(xi, Fi,“r”);持有

图中包含一个轴对象。坐标轴对象包含2个楼梯类型的对象。

用途によっては,ある領域内での分位数が他の領域内のものよりも良く一致することが重要な場合があります。そのためには,データを一致させたい位置に,既定の-1.5,-0.5,0.5,1.5の代わりに4つの等間隔の標準正規分位数を指定します。たとえば,左の裾ではなく右の裾のデ,タでの一致を,より重要と考えるかもしれません。その場合,右の裾を重視して標準正規分布する分位数を指定します。

Qnorm =[-]。5 .25 1 1.75];Probs = normcdf(qnorm);qemp =分位数(MPG,probs);R2 = johnsrnd([qnorm;qemp), 10000, (1);

しかし,新しい標本は右の裾ではオリジナルのデータにより良く一致しますが,左の裾ではずっと悪くなっています。

[Fj,xj] = ecdf(r2);持有;楼梯(Fj xj,‘g’);持有

图中包含一个轴对象。坐标轴对象包含3个楼梯类型的对象。

参考

||