主要内容

このペ,ジの翻訳は最新ではありません。ここをクリックして,英語の最新版を参照してください。

累積確率を使用する一変量分布での近似

この例では,累積分布関数の最小二乗推定を使用して一変量分布で近似する方法を示します。この方法は,最尤推定法が失敗した場合(しきい値パラメーターを含むモデルの場合など)に一般的に使用できる方法です。

デ,タに一変量分布をあてはめる最も一般的な方法は,最尤法です。しかし,あらゆるケ,スで最尤法がうまくいくわけではありません。モ,メント法など,他の推定法が必要になることもあります。最尤法は,該当する場合には優れた方法です。効率性が高いことが多いからです。しかし,ここで説明する方法では,必要に応じて使用できる別のルを使用します。

最小二乗法を使用する指数分布での近似

“最小二乗法”という用語は,回帰直線または回帰曲面で近似して,応答変数を1つまたは複数の予測子変数の関数としてモデル化する際によく使用されます。ここでは,最小二乗法をこれとは非常に異なる仕方で適用する方法を説明します。1。

最初に,いくかの標本デタをシミュレトします。指数分布を使用してデ,タを生成します。この例では,実際の場合と同様に,デ,タが特定のモデルに由来することは知られていないものとします。

rng(37岁,“旋风”);N = 100;X = extend (2,n,1);

次に,デ,タの経験累積分布関数(ecdf)を計算します。これは,各デタポントxで1/nの累積確率pに不連続がある単純なステップ関数です。

X = sort(X);P = ((1:n)-0.5)' ./ n;楼梯(x, p,“k -”);包含(“x”);ylabel (累积概率(p));

指数分布を使用してこれらのデ,タを近似します。その1つの方法は,累積分布関数(CDF)がデータのECDFを(後で説明する意味において)最もよく近似する指数分布を見つけることです。指数CDFは,p = Pr{X <= X} = 1 - exp(- X /mu)です。これを日志(1 - p) *μ= xに変換すると,日志(1 - p)とxとの間の線形関係が得られます。データが指数分布に由来する場合,ECDFから計算したxとpの値をこの方程式に代入すると,少なくとも近似的には線形関係が認められるはずです。最小二乗法を使用して,原点からx対日志(1 - p)まで直線で近似すると,その近似直線はデータに”最も近い”指数分布を表すことになります。直線の傾きは,パラメ,タ,muの推定値です。

同様にy =日志(1 - p)を標準の(平均値1)指数分布の“理想化された標本“と見なすことができます。これらの理想化された値は,確率のスケ,ル上で正確に等間隔に配置されます。デ,タが指数分布に由来する場合には,xとyのQ-Qプロットは,ほぼ線形になるはずです。したがって,最小二乗法直線で原点からx対yまでを近似します。

Y = -log(1 - p);muHat = y \ x
muHat = 1.8627

デ,タと近似直線をプロットします。

情节(x, y,“+”y * muHat y“r——”);包含(“x”);ylabel ('y = -log(1-p)');

この線形近似により,水平まり“x軸”方向の誤差の二乗和が最小になることに注意してください。これは,y = -log(1-p)の値が決定性の値であり,無作為なのはxの値だからです。また,y対xの回帰推定を行ったり,他の種類の線形近似を使用したりすることもできます。たとえば,加重回帰,直交回帰,さらにはロバスト回帰などですただし,ここではこれらの可能性は調べません。

比較のため,最尤法でデ,タを近似します。

muMLE = expfit(x)
muMLE = 1.7894

いよいよここで,2の推定分布を未変換の累積確率スケ。

楼梯(x, p,“k -”);持有Xgrid = linspace(0,1.1*max(x),100)';情节(xgrid expcdf (xgrid muHat),“r——”、xgrid expcdf (xgrid muMLE),“b——”);持有包含(“x”);ylabel (累积概率(p));传奇({“数据”,“LS配合”,毫升装的},“位置”,“东南”);

この2の方法で非常によく似た分布が得られます。もっとも,ls近似は分布の裾での観測の影響をより強く受けています。

ワ@ @ブル分布の近似

もう少し複雑な例として,ワブル分布の標本デタをシミュレトし,xのECDFを計算します。

N = 100;X = wblrnd(2,1,n,1);X = sort(X);P = ((1:n)-0.5)' ./ n;

これらのデータをワイブル分布で近似するには,ワイブル分布のCDFがp =公关X < = {X} = 1 - exp (- b (X / a) ^)であることに注意してください。これを日志(a) +日志(日志(1 - p)) * (1 / b) =日志(x)に変換すると,線形関係が再度得られますが,今回は日志(日志(1 - p))と日志(x)との間の線形関係になります。最小二乗法を使用して,ECDFのxとpを使用して変換されたスケール上に直線で近似することができます。すると,直線の傾きと切片からaとbの推定値を得ることができます。

Logx = log(x);Logy = log(-log(1 - p));Poly = polyfit(logy,logx,1);paramHat = [exp(poly(2)) 1/poly(1)]
paramHat = 2.1420 1.0843

デ,タと近似直線を変換されたスケ,ル上にプロットします。

情节(计算lnx,呆呆的,“+”,log (paramHat(1)) + logy/paramHat(2),logy,“r——”);包含(日志(x)的);ylabel (日志(日志(1 - p))”);

比較のため,最尤法でデ,タを近似します。そして,2の推定分布を変換されていないスケ。

paramMLE = wblfit(x) stairs(x,p,“k”);持有Xgrid = linspace(0,1.1*max(x),100)';情节(xgrid wblcdf (xgrid paramHat (1) paramHat (2)),“r——”,...xgrid, wblcdf (xgrid paramMLE (1) paramMLE (2)),“b——”);持有包含(“x”);ylabel (累积概率(p));传奇({“数据”,“LS配合”,毫升装的},“位置”,“东南”);
paramMLE = 2.1685 1.0372

しきい値パラメ,タ,の例

しきい値パラメーターが1つあるワイブル分布や対数正規分布などの正の分布で近似しなければならないことがあります。たとえば,あるワイブル確率変数が(0,正)を超える値を取り,あるしきい値パラメーターcがその範囲を(c,正)に移すとします。このしきい値パラメ,タ,が既知である場合は,話は簡単です。ところが,未知の場合には推定しなければなりません。これらのモデルを最尤法で近似するのは困難です。尤度に複数の最頻値が存在したり,データにとって理にかなっていないパラメーター値に対しては,不定になることもあるからです。そのため,最尤法は適さないことがよくあります。しかし,最小二乗法の手順にさらに手順を少し加えるだけで,安定した推定値を得ることができます。

実例を示すため,しきい値が1つある3パラメーターワイブル分布のデータをシミュレートします。前の例と同様に,デ,タが特定のモデルに由来することは知られておらず,しきい値も未知であるとします。

N = 100;X = wblrnd(4,2,n,1) + 4;嘘(x, 20);xlim ([0 16]);

これらのデタを3パラメタワブル分布で近似するにはどうすればよいでしょうか。しきい値がたとえば1であることがわかっていれば,データからその値を引いてから最小二乗法の手順を使用して,ワイブル分布の形状とスケールパラメーターを推定することができます。

X = sort(X);P = ((1:n)-0.5)' ./ n;Logy = log(-log(1-p));Logxm1 = log(x-1);Poly1 = polyfit(log(-log(1-p)),log(x-1),1);paramHat1 = [exp(poly1(2)) 1/poly1(1)] plot(logxm1,logy,“b +”,log (paramHat1(1)) + logy/paramHat1(2),logy,“r——”);包含(“日志(x - 1)”);ylabel (日志(日志(1 - p))”);
paramHat1 = 7.4305 4.5574

これは,あまり良い近似ではありません. log (x - 1)と日志(日志(1 - p))には線形関係がありません。もろんこれは,正確なしきい値を知らないからです。しきい値をさまざまに変えて引き算すると,それに応じてさまざまなプロットとパラメーター推定値を得ることができます。

Logxm2 = log(x-2);Poly2 = polyfit(log(-log(1-p)),log(x-2),1);paramHat2 = [exp(poly2(2)) 1/poly2(1)]
paramHat2 = 6.4046 3.7690
Logxm4 = log(x-4);Poly4 = polyfit(log(-log(1-p)),log(x-4),1);paramHat4 = [exp(poly4(2)) 1/poly4(1)]
paramHat4 = 4.3530 1.9130
情节(logxm1,呆呆的,“b +”logxm2呆呆的,' r + 'logxm4呆呆的,g +的,...log(paramHat1(1)) + logy/paramHat1(2),logy,“b——”,...log(paramHat2(1)) + logy/paramHat2(2),logy,“r——”,...log(paramHat4(1)) + logy/paramHat4(2),logy,“g——”);包含(log(x - c));ylabel ('log(-log(1 - p))');传奇({'Threshold = 1''Threshold = 2''阈值= 4'},“位置”,“西北”);

Log (x-4)とLog (-log(1-p))との間の関係は,ほぼ線形に見えます。正しいしきい値パラメーターを引き算するとほぼ線形プロットになるはずなので,これは,しきい値は4であると考えるのが理にかなっていることの証拠です。一方,しきい値を2および3とした場合のプロットは,線形からのズレが一貫して大きくなります。これは,これらの値ではデ,タとの整合性が取れないことの証拠です。

この引数を形式化することができます。しきい値パラメーターの各暫定値の場合,対応する暫定ワイブル近似値を変換された変数日志(得到)と日志(日志(1 - p))上で線形回帰のR ^ 2値を最大化するパラメーター値と見なすことができます。しきい値パラメーターを推定するには,その1手順をさらに実行して,可能なしきい値すべてに対してR ^ 2値を最大化します。

r2 = @ (x, y) 1 -范数(y - polyval (polyfit (x, y, 1), x))。^2 /范数(y -均值(y)).^2;threshObj = @(c) -r2(log(-log(1-p)),log(x-c));cHat = fminbnd(threshObj,.75*min(x), .9999*min(x));poly = polyfit(log(-log(1-p)),log(x-cHat),1);paramHat = [exp(poly(2)) 1/poly(1) cHat] logx = log(x-cHat);Logy = log(-log(1-p));情节(计算lnx,呆呆的,“b +”,log (paramHat(1)) + logy/paramHat(2),logy,“r——”);包含('log(x - cHat)');ylabel ('log(-log(1 - p))');
paramHat = 4.7448 2.3839 3.6029 .使用本文

非location-scaleファミリ

指数分布は规模ファミリの一種であり,対数スケールではワイブル分布はlocation-scaleファミリの一種なので,この最小二乗法はこの2つのケースでは明快でした。位置规模分布で近似する一般的な手順は,次のとおりです。

  • 観測デタのecdfを計算します。

  • 分布のCDFを変換して,デ,タの関数と累積確率の関数との間の線形関係を得ます。この2の関数には分布パラメタは関係していませんが,直線の傾きと切片には関係しています。

  • ECDFのpとxの値をその変換されたCDFに代入し,最小二乗法を使用して直線で近似します。

  • 直線の傾きと切片に関して,分布パラメ,タ,を解きます。

追加のしきい値パラメーターが1つあるlocation-scaleファミリである分布で近似することが,ほんのわずかに難しいことを知りました。

しかし,location-scaleファミリでない他の分布(ガンマ分布など)は,少し面倒です。線形関係が得られるCDFの変換はありません。ただし,同じような考えを適用することはできます。今回は,未変換の累積確率スケ,ルを改良します。その近似手順を可視化するには,p-pプロットが適切な方法です。

ECDFの経験的確率が,パラメトリックモデルの近似確率にプロットされる場合,0から1に向かって1:1直線上の狭い範囲でばらつきます。これは,パラメ,タ,値が観測デ,タをよく説明する分布を定義することを示しています。なぜなら,近似されたCDFは経験的CDFをよく近似するからです。考え方は,確率プロットを1:1直線にできるだけ近づけるパラメーター値を見つける,ということです。分布がデ,タの良いモデルではない場合,これはそもそも不可能かもしれません。p pプロットが1:1直線から一貫して離れる場合には,モデルに疑問の余地があるかもしれません。ただし,これらのプロットの点は独立しているわけではないので,解釈は回帰残差プロットとまったく同じにはならないことを忘れないでください。

たとえば,デ,タをシミュレ,トして,ガンマ分布で近似します。

N = 100;X = gamnd (2,1,n,1);

xのECDFを計算します。

X = sort(X);pEmp = ((1:n)-0.5)' ./ n;

ガンマ分布のパラメーターの初期推定値,たとえば= 1とb = 1を使用して,確率プロットを作成することができます。この推定値はあまり良いものではありません。パラメトリックなCDFの確率は,ecdfの確率に近くありません。aとの値を変えて試すと,p pプロット上のばらつき具合および1:1直線との相違の程度もそれに応じて変わります。この例ではaとbの正しい値がわかっているので,その値を試してみましょう。

A0 = 1;B0 = 1;p0Fit = gamcdf(x,a0,b0);A1 = 2;B1 = 1;p1Fit = gamcdf(x,a1,b1);Plot ([0 1],[0 1],“k——”pEmp p0Fit,“b +”pEmp p1Fit,' r + ');包含(“经验概率”);ylabel (“(临时)拟合伽马概率”);传奇({“1:1线”,“a = 1, b = 1”,“= 2,b = 1”},“位置”,“东南”);

aとの値の2番目の集合だと,プロットがはるかに良くなるので,p pプロットがどれほど直線に近いのかで”適合性”を判定している場合には,データにより適合していると言えます。

ばらつき具合を1:1直線にできるだけ一致させるには,1:1直線との距離の重み付き二乗和を最小にするとbの値を見つけます。重みは経験的確率に関して定義され,プロットの中央で最低,端点で最高になります。これらの重みは,近似確率の分散を埋め合わせます。分散は,中央付近で最高,裾で最低になります。この重み付き最小二乗法により,aとbの推定量が決まります。

wgt = 1 ./√(pEmp.*(1-pEmp));gammaObj = @ (params)和(重量。* (gamcdf (x, exp (params (1)), exp (params (2))) -pEmp)。^ 2);paramHat = fminsearch(gammaObj,[log(a1),log(b1)]);paramHat = exp(paramHat)
paramHat = 2.2759 0.9059
pFit = gamcdf(x,paramHat(1),paramHat(2));Plot ([0 1],[0 1],“k——”pEmp pFit,“b +”);包含(“经验概率”);ylabel (“拟合伽马概率”);

以前に考慮したlocation-scaleのケースでは,単一の直線近似で分布を近似できたことに注意してください。ここでは,しきい値パラメーターの例と同様に,最適近似パラメーター値を反復して見つけなければなりませんでした。

モデルの指定ミス

P-pプロットは,さまざまな分布ファミリの近似を比較する際にも便利です。これらのデ,タを対数正規分布で近似するとどうなるでしょうか。

wgt = 1 ./√(pEmp.*(1-pEmp));LNobj = @ (params)和(重量。* (logncdf (x, params (1), exp (params (2))) -pEmp)。^ 2);Mu0 = mean(log(x));Sigma0 = std(log(x));paramHatLN = fminsearch(LNobj,[mu0,log(sigma0)]);paramHatLN(2) = exp(paramHatLN(2))
paramHatLN = 0.5331 0.7038
pFitLN = logcdf (x,paramHatLN(1),paramHatLN(2));持有情节(pEmp pFitLN,“处方”);持有ylabel (“拟合概率”);传奇({“1:1线”,“安装伽马”,符合对数正态的},“位置”,“东南”);

対数正規近似が裾でガンマ近似からどれほど一貫して離れているのかに注意してください。左側の裾ではよりゆっくり成長し,右側の裾ではよりゆっくり消滅します。ガンマ分布の方がデ,タの近似度がわずかに高いようです。

対数正規しきい値パラメ,タ,の例

対数正規分布は,最尤法により簡単に近似することができます。いったんデ,タに対数変換が適用されると,最尤法は正規分布を近似することと等価であるからです。しかし,対数正規モデルでもしきい値パラメ,タ,を推定しなければならないこともあります。そのようなモデルの尤度は有界でないので,最尤法ではうまくいきません。ところが,最小二乗法なら推定することができます。2パラメーター対数正規分布は,location-scaleファミリに対数変換することができるので,前述のしきい値パラメーターがあるワイブル分布で近似する例と同じ手順を踏むことができます。ただし,ここでは,ガンマ分布で近似した前の例と同様に,累積確率スケ,ル上で推定します。

実例を示すため,しきい値が1ある3トします。

N = 200;X = lognrnd(0,.5,n,1) + 10;嘘(x, 20);xlim (15 [8]);

xのECDFを計算し,最適な3パラメタ対数正規分布のパラメタを見けます。

X = sort(X);pEmp = ((1:n)-0.5)' ./ n;wgt = 1 ./√(pEmp.*(1-pEmp));LN3obj = @ (params)和(重量。* (logncdf (x-params(3),参数个数(1),exp (params (2))) -pEmp)。^ 2);C0 = .99*min(x);Mu0 = mean(log(x-c0));Sigma0 = std(log(x-c0));paramHat = fminsearch(LN3obj,[mu0,log(sigma0),c0]);paramHat(2) = exp(paramHat(2))
paramHat = -0.0698 0.5930 10.1045
pFit = logcdf (x-paramHat(3),paramHat(1),paramHat(2));情节(pEmp pFit,“b +”,[0 1],[0 1],“k——”);包含(“经验概率”);ylabel (拟合3参数对数正态概率);

精度の尺度

パラメ,タ,の推定は,話の一部にすぎません。モデル近似には推定値,特に標準誤差の精度を評価することも必要です。最尤法では,情報行列と大きい標本の漸近引数を使用して,標本抽出を繰り返して推定量の共分散行列の近似値を求めるのが一般的です。最小二乗法の推定量には,そのような理論はありません。

ただし,モンテカルロシミュレ,ションには,標準誤差を推定するための別の方法があります。近似モデルを使用してデータセットを多数生成すると,モンテカルロ標準偏差で推定量の標準誤差の近似値を求めることができます。簡単にするため,近似関数を別のファlogn3fit.mに定義しておきました。

estsSim = 0 (1000,3);i = 1:size(estsSim,1) xSim = lognnd (paramHat(1),paramHat(2),n,1) + paramHat(3);estsSim(i,:) = logn3fit(xSim);结束性病(estsSim)
Ans = 0.1542 0.0908 0.1303

推定値の分布を調べること,近似的正規性の仮定がこの標本サイズにとって理にかなっているかどうかをチェックすること,またはバイアスがないかどうかをチェックすることも役立つかもしれません。

次要情节(3,1,1),嘘(estsSim (: 1), 20);标题(“日志定位参数引导估计”);次要情节(3、1、2),嘘(estsSim (:, 2), 20);标题(“对数尺度参数引导估计”);次要情节(3、1,3),嘘(estsSim (:, 3), 20);标题(“阈值参数引导估计”);

明らかに,しきい値パラメ,タ,の推定量は歪んでいます。これは想定内のことです。推定量は最小デ,タ値によって上に有界だからです。他の2つのヒストグラムも,近似的正規性が最初のヒストグラムの日志位置パラメーターにとって疑わしい仮定である可能性があることを示しています。上記で計算した標準誤差を解釈するに当たっては,この点を念頭に置いておかなければなりません。そして,日志的位置パラメーターとしきい値パラメーターについては,信頼区間を通常の方法で構築することは適切ではない可能性があります。

シミュレートされた推定値の平均値は,シミュレートされたデータを生成するために使用されるパラメーター値に近い値になります。これは,この手順がこの標本サイズで少なくとも推定値に近いパラメーター値に関してはほぼ不偏であることを示しています。

[paramHat;意思是(estsSim)]
Ans = -0.0698 0.5930 10.1045 -0.0690 0.5926 10.0905

最後になりますが,関数bootstrpを使用して,ブ,トストラップ標準誤差推定値を計算することもできました。この値は,デタにいて何のパラメタ仮定も行いません。

estsBoot = bootstrp(1000,@logn3fit,x);性病(estsBoot)
Ans = 0.1490 0.0785 0.1180

ブ,トストラップ標準誤差は,モンテカルロ計算値から大きく外れてはいません。これは当然です。近似モデルがデ,タ例の生成元モデルと同じであるからです。

まとめ

ここで説明した近似法は,最尤法では役立つパラメーター推定値を得られない場合に一変量分布で近似するために使用できる最尤法の代替法の1つです。1つの重要な適用法は,しきい値パラメーターが関係する分布(3パラメーター対数正規など)で近似することです。最尤法の推定値の場合には,標準誤差の計算がより難しくなります。これは,解析的近似法が存在しないからです。もっとも,シミュレ,ションにより,実行可能な代替法を得ることができます。

近似法を実演で示すためにここで使用したp pプロットは,一変量分布で近似しようとしても近似が存在しないことを視覚的に示すものとして,それ単独でも便利なものです。