ゼロ打ち切りの負の二項分布 のバックアップの現在との差分(No.2) - アールメカブ

アールメカブ


ゼロ打ち切りの負の二項分布 のバックアップの現在との差分(No.2)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
* ゼロ打ち切りの負の二項分布 [#f2667139]
* ゼロ打ち切りの負の二項分布 [#v32020b3]

負の二項分布は

#mathml(p_0 (x) = {   }_{k+x-1}C_{x}     p^k (1-p)^x = );

#mathml(\frac{\Gamma(k+x)}{\Gamma(k)x!}   (\frac{k}{k+\mu})^k (\frac{\mu}{k+\mu})^x)

ただし
+ &mathml(x =); 0,1,2,...
+ &mathml(\mu = \frac{k(1 - p)}{p});
+ 0 < &mathml(p); < 1 ,  0 < &mathml(k); < ∞
//< &mathml(\infty);
// #mathml(\binom{k+x-1}{x})

このゼロ打ち切り分布は

#mathml(p(x) = \frac{p_0(x)}{1 - p_0(0)} = \frac{p^k}{1 - p^k}  { }_{k+x-1}C_{x}(1 - p)^x = \frac{-1}{1 - p^{-k}}  { }_{-k}C_{x} (-1 + p)^x)

ここで &mathml((1 - p) = q); とすれば Niehaus p.235 の式

#mathml(P_x =   \frac{p^k}{1 - p^k}  { }_{k+x-1}C_{x}(q)^x  =   \frac{q^x p^k}{1 - p^k}  { }_{k+x-1}C_{x} )

また &mathml(k); ->  ∞, &mathml(q); -> 0, &mathml(q k); -> 0 の場合,ゼロ打ち切り負の二項分布は &size(16){&color(red){正のポアソン分布};}; によって近似可能である(Niehaus, p.235). 

- さてこの分布は, [[蓑谷 千凰彦 統計学のはなし:http://www.amazon.co.jp/%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%97-%E8%93%91%E8%B0%B7-%E5%8D%83%E5%87%B0%E5%BD%A6/dp/4489001851/]] にあるように,&size(16){&color(red){パスカル分布};}; とも呼ばれる.

この式の導出は,まず二項分布を考える.すなわち n 回試行して z 回成功する確率である.p.152

#mathml({}_nC_{x} p^x q^{n - x})

ここで k 回の成功が生じるまでに必要なベルヌーイ試行の回数 Z を考えると,その可能な数は, k, k+1, k+2, ... である.

k 回の成功が生じるまでの試行回数が z 回と言う場合,z - 1 回の試行までに k -1 回成功しており,z 回目に成功するということである.k - 1 回目の成功までの確率は

#mathml({}_{z-1} C_{k-1}  p^{k-1}  q^{z-k})

で求まり,k 回目の成功は,これに p をかければ良い.


#mathml({}_{z-1} C_{k-1}  p^{k-1}  q^{z-k} p = {}_{z-1} C_{k-1}  p^{k}  q^{z-k} )
これが負の二項分布であるが,この式で k = 1 の時は,&size(16){&color(red){超幾何分布};}; となる.

さて,今 &mathml(X = Z - k); と表すと x は 0,1,2...をとる.これは k 回目の成功が得られるまでの失敗回数を意味する.先の式で z を &mathml(x + k); に置き換えると

#mathml( {}_{x + k -1} C_{k - 1}  p^{k}  q^{x} )

となる.ここで

+ &mathml(\mu = \frac{k q}{p});
+ &mathml(\sigma^2 = \frac{k q}{p^2});

先の式は次を利用すると,結局,&mathml({}_{k+x-1}C_{x}  p^k (1-p)^x );  となる.

+ &mathml( {}_{x+k-1}C_{k-1} = \frac{(x+k-1)!}{(k-1)!x!});
+ &mathml( {}_{x+k-1}C_{x} =   \frac{(x+k-1)!}{(k-1)!x!});

なお&size(16){&color(red){positive Poisson 正のポアソン分布};};は,ゼロ打ち切りの負の二項分布で &mathml(k); が非常に大きくなり,&mathml(p); がほとんど  1 の場合に等しい(Niehaus, p.257).

なお,これらの分布の関係については,
G.Wimmer, R.Koehrer,R.Grotjahn,G.Altmann: Towards a theory of word length distribution,Journal of quantitative linguistics,1,98-106, 1994