2015/11/04

多項分布の意味と平均,分散,共分散などの計算


同時確率関数が
$P(n_1,\cdots,n_k)=\dfrac{n!}{n_1!\cdots n_k!}p_1^{n_1}\cdots p_k^{n_k}$ (各 $n_i$ が非負で $n_1+\cdots +n_k=n$ のときはこの値,それ以外のときは $0$)
で表されるような分布を多項分布と言う。
ただし,$n,p_1,\cdots,p_k$ はパラメータで,$p_1+\cdots +p_k=1$ を満たす。

多項分布の意味

確率 $p_i$ で事象 $A_i$ が起こる($i=1,\cdots, k$)ような試行を $n$ 回行ったとき「どの事象が何回起こったか」を表す確率分布を多項分布と言います。

事象 $A_1$ が $n_1$ 回起こり,$\cdots$,事象 $A_k$ が $n_k$ 回起こる確率は確かに $P(n_1,\cdots,n_k)$ となっています。
($\dfrac{n!}{n_1!\cdots n_k!}$ がどういう順番で事象が起こるかのパターンの数,$p_1^{n_1}\cdots p_k^{n_k}$ が順番を1つ固定したときにそのような順番で事象が起こる確率)

$k=2$ の場合,二項分布になります($n_2=n-n_1$,$p_2=1-p_1$ となる)。→二項分布の平均と分散の二通りの証明

多項分布の平均と分散

多項分布の平均は,$E[N_i]=np_i$
分散は,$E[N_i]=np_i(1-p_i)$

($n_i$ に対応する確率変数を $N_i$ と書きました)
平均と分散については二項分布の場合の結果(詳細は先ほどのリンク先)がそのまま使えます。「 $A_i$ が起こらない」という事象はひとまとめに扱うことができるからです。

証明

$N_i=n_i$ となる確率は,反復試行の確率の考え方より${}_n\mathrm{C}_{n_i}p_i^{n_i}(1-p_i)^{n-n_i}$ である。これは $N_i$ が(パラメータ $n,p_i$ の)二項分布に従うことを示している。よって,二項分布の平均,分散と同じ形の式になる。

多項分布の共分散

多項分布の共分散は($i\neq j$ に対して),$\mathrm{Cov}(N_i,N_j)=-np_ip_j$

共分散はマイナスです。これは $N_i$ が大きいほど $N_j$ が小さくなりやすいという感覚と合致しています。

証明には共分散を計算するときに役立つ公式:
$\mathrm{Cov}(N_i,N_j)=E[N_iN_j]-E[N_i]E[N_j]$
→共分散の意味と簡単な求め方を使います。

証明

$N_i=n_i$ かつ $N_j=n_j$ となる確率は $\dfrac{n!}{n_i!n_j!(n-n_i-n_j)!}p_i^{n_i}p_j^{n_j}(1-p_i-p_j)^{n-n_i-n_j}$ であるので,
$E[N_iN_j]=\sum n_in_j\dfrac{n!}{n_i!n_j!(n-n_i-n_j)!}p_i^{n_i}p_j^{n_j}(1-p_i-p_j)^{n-n_i-n_j}\\
=n(n-1)p_ip_j\sum \dfrac{(n-2)!}{(n_i-1)!(n_j-1)!(n-n_i-n_j)!}p_i^{n_i-1}p_j^{n_j-1}(1-p_i-p_j)^{n-n_i-n_j}$
ただし,途中のシグマについては,$1\leq n_1\leq n,1\leq n_2\leq n$ かつ $n_1+n_2\leq n$ を満たす $n_1,n_2$ について和を取る。ここで,多項定理を用いると上式は,
$n(n-1)p_ip_j\{p_i+p_j+(1-p_i-p_j)\}^{n-2}\\
=n(n-1)p_ip_j$
となる。よって共分散は,
$n(n-1)p_ip_j-np_i\cdot np_j\\
=-np_ip_j$

積率母関数,特性関数

おまけです。

多項分布の積率母関数(モーメント母関数)は,
$E[e^{t_1N_1+\cdots +t_kN_k}]=(p_1e^{t_1}+\cdots +p_ke^{t_k})^n$
多項分布の特性関数は,
$E[e^{it_1N_1+\cdots +it_kN_k}]=(p_1e^{it_1}+\cdots +p_ke^{it_k})^n$

積率母関数を使って共分散を簡単に計算することもできます($t_i$ で偏微分して $t_j$ で偏微分して $t$ の各成分に $0$ を代入すると $E[N_iN_j]=n(n-1)p_ip_j$ が分かる)!

多項定理が登場する場面では式の見た目が複雑になりがちですが,内容はそんなに難しくありません。

Tag:いろいろな確率分布の平均,分散,特性関数などまとめ