確率分布2 二項分布

水曜日, 7月 22, 2020

数学

t f B! P L

ゆるっとわかる確率分布
 
前回連続型確率分布のネガキャン確率分布自体についての説明もあり、長かったですが、今回からは最初から本題に入れます。


二項分布

ベルヌーイ分布の成れの果て、ではなく、実現値が2つのみ(成功or失敗)の試行(=ベルヌーイ試行)を、nn回行ったときに、成功がでた回数xxを確率変数とした分布です。


どんなデータに使うか

ベルヌーイ分布の確率変数は成功or失敗そのものでしたが、二項分布の確率変数は成功の回数です。

つまり、コイントスでいうと、5回投げるとして、表がでる(成功する)回数は0回から5回までの6パターンの結果(実現値)がありえます。

つまり、以下の表の実現値・確率の対応表が、二項分布の正体です。

0 1 2 3 4 5

確率分布の式

f(xn,p)=nCxpx(1p)nxx{0,...,n}p[0.0,1.0) f(x|n,p) = {}_n C_x p^{x} (1-p)^{n-x} \\ x \in \{0, ..., n\} \\ p \in [0.0, 1.0)

ppは、ベルヌーイ分布と同じ成功確率(コイントスなら表がでる確率)です。
 
二項分布では、これに加えてnnというパラメータが増えています。nnは試行回数(コイントスなら投げた回数)でした。
 
これもある意味当たり前で、例えば同じx=5x=5(表が出た回数が5回)でも、10回投げて表が5回でる確率と、5回投げて表が5回でる確率は違いますよね?
そのため、nnの値によっても分布の形が変わります。


注意点

最も気をつける必要があるのは、ベルヌーイ分布の尤度関数との区別です。
 
例えば、ベルヌーイ分布で5回コイントスを行い、以下のような結果になった場合
 
X, O, O, O, O
 
ベルヌーイ分布の尤度関数は

L(p)=p4(1p)L(p) = p^4(1-p)

になります。
 
二項分布と似ていますが、二項分布はそもそもこういう話をしていません
 
二項分布が表しているのは、成功回数の確率です。
上の例はたしかに成功回数=4ですが、と同時に成功回数=4の一例でしかありません
 
この違いが重要です。
同じ成功回数=4なら、他にも
 
O, X, O, O, O
O, O, X, O, O
O, O, O, X, O
O, O, O, O, X
 
があります。
 
二項分布が表す成功回数の確率は、並び順まですべて考慮した成功回数の確率です。
で、この並び順ですが、これまた数学で習ったコンビネーションでちょうど表現できます。
 
そのため、右辺の頭にコンビネーションがついています。


名前をつける

コイントスの成功回数についての確率分布

QooQ