负二项分布
定义
当r参数为整数,负二项式PDF为
在哪里问= 1 -p.当r是不是一个整数,在定义中的二项式系数PDF被替换成等效的表达式
背景
最简单的形式(当r是一个整数),负二项分布模型失效的数量x在一系列独立的,相同的试验中达到一定数量的成功之前。它的参数是在一次试验中成功的概率,p,以及成功的次数,r.负二项分布的特殊情况,当r= 1,是几何分布,它模拟了第一次成功之前的失败次数。
更普遍的是,r可以取非整数值。这种形式的负二项分布不能用重复试验来解释,但是泊松分布,它是有用的建模计数数据。负二项分布比泊松分布更普遍,因为它的方差大于其均值,使得它适用于不满足泊松分布假设的统计数据。在极限中,如r增大到无穷大时,负二项分布趋于泊松分布。
参数
假设您正在收集一条繁忙的高速公路上的交通事故数量的数据,并希望能够对每天的交通事故数量进行建模。因为这些都是计数数据,因为有很多车,而任何特定的车发生事故的概率都很小,你可能会考虑使用泊松分布。然而,随着天气和交通流量的变化,发生事故的概率可能每天都在变化,因此泊松分布所需的假设不满足。特别是,这类计数数据的方差有时会大大超过平均值。下面的数据显示了这一效应:大多数日子很少或没有事故,而几天有大量的事故。
事故= [2 3 4 23 1 12 8 14 31 23 1 10 7 0];m =意味着(事故)
m = 8.0667
v = var(事故)
v = 79.3524
负二项分布比泊松分布更普遍,通常适用于泊松不分布的统计数据。这个函数nbinfit
返回负二项分布参数的最大似然估计(MLEs)和置信区间。下面是拟合的结果事故
数据:
(太好了,pci) = nbinfit(事故)
太好了=1×21.0060 - 0.1109
pci =2×20.2152 0.0171 1.7968 0.2046
在这种情况下,很难对单个参数作出物理解释。然而,估计的参数可用于一个模型的日事故数量。例如,一个估计累积概率函数的图表显示,虽然在某一天估计有10%的几率没有发生事故,但也有10%的几率会发生20起或更多的事故。
情节(0:50 nbincdf(0:50酷毙了(1),太好了(2)),“。”);包含(“每天事故”) ylabel (“累积概率”)
例子
计算和绘图负二项分布PDF
使用参数的四个不同值计算并绘制pdfr
,期望成功次数:.1
,1
,3.
,6
.在每一种情况下,成功的概率p
是.5
.
x = 0:10;情节(x, nbinpdf (x。1。5),“s -”,...x, nbinpdf (x 1。5),“啊——”,...x, nbinpdf (x 3。5),“d -”,...x, nbinpdf (x 6。5),' ^ - ');传奇({' r = 1。“r = 1”' r = 3 '' r = 6})包含(“x”) ylabel (“f (x | r p)”)
图中显示,负二项分布可以呈现各种形状,从非常倾斜到几乎对称,取决于的值r
.