負の二項分布

定義

パラメーター r が整数の場合、負の二項分布確率密度関数は次のようになります。

$y = f (x | r, p) = (\begin{matrix} r + x - 1 \\ x \end{matrix}) p^{r} q^{x} I_{(0, 1, ...)} (x)$

ここでq= 1 –pです。rが整数でない場合、確率密度関数の定義における二項係数は、次の等価な式で置き換えられます。

$\frac{Γ (r + x)}{Γ (r) Γ (x + 1)}$

背景

最も簡単な形 (rが整数の場合) では、負の二項分布は、同じ試行を繰り返す場合の独立試行において、指定した回数の成功が起こるまでの失敗数xをモデル化します。そのパラメーターは、一回の試行での成功の確率pと成功の回数rです。負の二項分布は、特にr= 1 の場合に、幾何分布になります。幾何分布は、最初の成功までの失敗の数をモデル化します。

より一般には、rは負の整数値をとれます。この形式の負の二項分布には、繰り返しの試行という解釈がありません。しかし、ポアソン分布のように、計数データのモデリングに便利です。負の二項分布は、ポアソン分布よりも一般的であるのは、負の二項分布は、その平均よりも分散が大きくなるため、ポアソン分布の仮定を満たさない計数データに適する可能性があるためです。極限において、rが増加して無限大に近づくにつれ、負の二項分布はポアソン分布に近づきます。

パラメーター

混雑したハイウェイでの自動車事故数のデータを収集し、1 日あたりの事故発生回数のモデル化を考えているとします。これらは計数データであり、自動車数は非常に多くても、特定の自動車に関する事故の確率は小さいため、ポアソン分布の使用を考えるかもしれません。しかし、事故が起こる確率は、天候や交通量が変化すると日によって変化する可能性があるため、ポアソン分布に必要な仮定は満たされていません。特に、この種の計数データの分散は、平均を大きく上回ることがあります。下記のデータは、この効果を表しています。すなわち、たいていの日は事故は少ないかまったくなく、多数になる日がわずかにあります。

accident = [2 3 4 2 3 1 12 8 14 31 23 1 10 7 0]; m = mean(accident)

m = 8.0667

v = var(accident)

v = 79.3524

負の二項分布は、ポアソン分布よりも一般的であり、ポアソン分布が適切でない場合に、計数データに便利な場合もあります。関数nbinfitは、負の二項分布のパラメーターの最尤推定と信頼区間を出力します。次は、データaccidentの近似の結果です。

[phat,pci] = nbinfit(accident)

phat =1×21.0060 0.1109

pci =2×20.2152 0.0171 1.7968 0.2046

この場合、個々のパラメーターに物理的な解釈を与えることは難しいです。しかし、推定パラメーターは、毎日の事故数のモデルで使うこともできます。たとえば、推定される累積確率関数のプロットは、ある日に事故が起こらないという可能性は 10% と推定できる一方で、20 あるいはより多くの事故が起こる可能性もおよそ 10% あるということを示します。

plot(0:50,nbincdf(0:50,phat(1),phat(2)),'.-'); xlabel('Accidents per Day') ylabel(“累积概率”)

Figure contains an axes object. The axes object contains an object of type line.

例

負の二項分布累積分布関数 PDF の計算とプロット

ライブスクリプトを開く

望ましい成功回数のパラメーターrについて、4 つの異なる値を使用して確率密度関数を計算し、プロットします。使用する値は.1、1、3、6です。ケースごとに、成功の確率pは.5です。

x = 0:10; plot(x,nbinpdf(x,.1,.5),'s-',...x,nbinpdf(x,1,.5),'o-',...x,nbinpdf(x,3,.5),'d-',...x,nbinpdf(x,6,.5),'^-'); legend({'r = .1''r = 1''r = 3''r = 6'}) xlabel('x') ylabel('f(x|r,p)')

Figure contains an axes object. The axes object contains 4 objects of type line. These objects represent r = .1, r = 1, r = 3, r = 6.

プロットから、負の二項分布はかなり歪んだ形状からほぼ対称な形状まで、rの値に応じてさまざまに変化する可能性があることがわかります。

参考

NegativeBinomialDistribution