- 追加された行はこの色です。
- 削除された行はこの色です。
* ゼロ打ち切りの負の二項分布 [#f2667139]
* ゼロ打ち切りの負の二項分布 [#v32020b3]
負の二項分布は
#mathml(p_0 (x) = { }_{k+x-1}C_{x} p^k (1-p)^x = );
#mathml(\frac{\Gamma(k+x)}{\Gamma(k)x!} (\frac{k}{k+\mu})^k (\frac{\mu}{k+\mu})^x)
ただし
+ &mathml(x =); 0,1,2,...
+ &mathml(\mu = \frac{k(1 - p)}{p});
+ 0 < &mathml(p); < 1 , 0 < &mathml(k); < ∞
//< &mathml(\infty);
// #mathml(\binom{k+x-1}{x})
このゼロ打ち切り分布は
#mathml(p(x) = \frac{p_0(x)}{1 - p_0(0)} = \frac{p^k}{1 - p^k} { }_{k+x-1}C_{x}(1 - p)^x = \frac{-1}{1 - p^{-k}} { }_{-k}C_{x} (-1 + p)^x)
ここで &mathml((1 - p) = q); とすれば Niehaus p.235 の式
#mathml(P_x = \frac{p^k}{1 - p^k} { }_{k+x-1}C_{x}(q)^x = \frac{q^x p^k}{1 - p^k} { }_{k+x-1}C_{x} )
また &mathml(k); -> ∞, &mathml(q); -> 0, &mathml(q k); -> 0 の場合,ゼロ打ち切り負の二項分布は &size(16){&color(red){正のポアソン分布};}; によって近似可能である(Niehaus, p.235).
- さてこの分布は, [[蓑谷 千凰彦 統計学のはなし:http://www.amazon.co.jp/%E7%B5%B1%E8%A8%88%E5%AD%A6%E3%81%AE%E3%81%AF%E3%81%AA%E3%81%97-%E8%93%91%E8%B0%B7-%E5%8D%83%E5%87%B0%E5%BD%A6/dp/4489001851/]] にあるように,&size(16){&color(red){パスカル分布};}; とも呼ばれる.
この式の導出は,まず二項分布を考える.すなわち n 回試行して z 回成功する確率である.p.152
#mathml({}_nC_{x} p^x q^{n - x})
ここで k 回の成功が生じるまでに必要なベルヌーイ試行の回数 Z を考えると,その可能な数は, k, k+1, k+2, ... である.
k 回の成功が生じるまでの試行回数が z 回と言う場合,z - 1 回の試行までに k -1 回成功しており,z 回目に成功するということである.k - 1 回目の成功までの確率は
#mathml({}_{z-1} C_{k-1} p^{k-1} q^{z-k})
で求まり,k 回目の成功は,これに p をかければ良い.
#mathml({}_{z-1} C_{k-1} p^{k-1} q^{z-k} p = {}_{z-1} C_{k-1} p^{k} q^{z-k} )
これが負の二項分布であるが,この式で k = 1 の時は,&size(16){&color(red){超幾何分布};}; となる.
さて,今 &mathml(X = Z - k); と表すと x は 0,1,2...をとる.これは k 回目の成功が得られるまでの失敗回数を意味する.先の式で z を &mathml(x + k); に置き換えると
#mathml( {}_{x + k -1} C_{k - 1} p^{k} q^{x} )
となる.ここで
+ &mathml(\mu = \frac{k q}{p});
+ &mathml(\sigma^2 = \frac{k q}{p^2});
先の式は次を利用すると,結局,&mathml({}_{k+x-1}C_{x} p^k (1-p)^x ); となる.
+ &mathml( {}_{x+k-1}C_{k-1} = \frac{(x+k-1)!}{(k-1)!x!});
+ &mathml( {}_{x+k-1}C_{x} = \frac{(x+k-1)!}{(k-1)!x!});
なお&size(16){&color(red){positive Poisson 正のポアソン分布};};は,ゼロ打ち切りの負の二項分布で &mathml(k); が非常に大きくなり,&mathml(p); がほとんど 1 の場合に等しい(Niehaus, p.257).
なお,これらの分布の関係については,
G.Wimmer, R.Koehrer,R.Grotjahn,G.Altmann: Towards a theory of word length distribution,Journal of quantitative linguistics,1,98-106, 1994