最終更新:2017/05/24

超幾何分布の意味と期待値の計算


合計 $N$ 個のものの中に,当たりが $A$ 個入っている。この $N$ 個から $n$ 個選んだときに,当たりが何個あるか?
を表す分布を超幾何分布と言う(パラメータは $N,A,n$ の3つ)。

超幾何分布の確率質量関数

当たりが $x$ 個入っている確率 $f_{N,A,n}(x)$ を計算してみましょう。

まず,全ての選び方の数は,${}_N\mathrm{C}_n$ 通りです。

このうち,当たりが $x$ 個(つまりハズレが $n-x$ 個)である選び方の数はいくつでしょうか?
そもそも,当たりの数とハズレの数の制約から,
$0\leq x\leq A$ かつ $0\leq n-x\leq N-A$
の場合にのみ,そのような選び方が存在します。この条件を変形すると,
$\max\{0,n-N+A\}\leq x\leq \min\{A,n\}$
となります。

そして,この条件を満たすときには,当たりが $x$ 個となる選び方は,
${}_A\mathrm{C}_x\cdot {}_{N-A}\mathrm{C}_{n-x}$ 通りです。

よって,超幾何分布の確率質量関数は,
$f_{N,A,n}(x)=\dfrac{{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}$
(ただし,$x$ は上記の条件を満たす範囲)となります。

超幾何分布の期待値(きれいな方法)

超幾何分布の期待値は,$\dfrac{nA}{N}$

和の期待値が分解できることを使った面白い計算方法です。

証明1

超幾何分布の問題設定における抽出について
「$i$ 個目に選んだものが当たりなら $1$、ハズレなら $0$ となる確率変数」
を $X_i$ とします。

このとき,超幾何分布の期待値は,
$E[X_1+X_2+\cdots +X_n]$
となります。

各 $X_i$ は互いに独立ではありませんが,そのような場合でも和の期待値は期待値の和に分解できるので,上式は
$E[X_1]+E[X_2]+\cdots +E[X_n]$
となります。

そして,$i=1,2,\cdots,n$ に対して,$E[X_i]=\dfrac{A}{N}$ なので,求める期待値は $\dfrac{nA}{N}$ となります。

超幾何分布の期待値(がんばる方法)

期待値の定義に従って直接計算することもできます。
$r{}_n\mathrm{C}_r$ = $n{}_{n-1}\mathrm{C}_{r-1}$
という公式を使います。→二項係数の有名公式

証明2(計算の詳細は省略)

期待値は,定義より,
$\displaystyle\sum_{x\in X}xf_{N,A,n}(x)\\
=\displaystyle\sum_{x\in X}\dfrac{x\cdot{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}$
です。ただし,和を取る範囲 $X$ は,$\max\{0,n-N+A\}\leq x\leq \min\{A,n\}$ を満たす整数 $x$ 全体の集合です。ここで,$x=0$ の部分は和に寄与しないので,
$\displaystyle\sum_{x\in X’}\dfrac{x\cdot{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}$
ただし,$X’$ は $\max\{1,n-N+A\}\leq x\leq \min\{A,n\}$ を満たす整数 $x$ 全体の集合
としても値は同じです。

これを上記の二項係数の公式を使って変形すると,
$\dfrac{nA}{N}\displaystyle\sum_{x\in X’}\dfrac{{}_{A-1}\mathrm{C}_{x-1}\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_{N-1}\mathrm{C}_{n-1}}$
となります。$1$ 平行移動すると,
$\dfrac{nA}{N}\displaystyle\sum_{x-1\in Y}\dfrac{{}_{A-1}\mathrm{C}_{x-1}\cdot{}_{(N-1)-(A-1)}\mathrm{C}_{(n-1)-(x-1)}}{{}_{N-1}\mathrm{C}_{n-1}}$
となります。ただし,$Y$ は
$\max\{0,(n-1)-(N-1)+(A-1)\}\leq y\\
\leq \min\{A-1,n-1\}$
を満たす整数 $y$ 全体の集合です($X’$ を定める不等式の各辺から $1$ を引いた)。

上式のシグマの中身は,パラメータが $(N-1,A-1,n-1)$ である超幾何分布の確率質量関数です。和を取る範囲も,パラメータが $(N-1,A-1,n-1)$ である超幾何分布のものと対応しています。そのため,和を取ると $1$ になります。

結局残るのは $\dfrac{nA}{N}$ です。

※場合分けを意識していない計算($\max\{0,n-N+A\}=0$ を仮定してしまっている計算)をやってしまいがちです。きちんとやるとけっこうめんどうです。

パラメータが3つもあると,どの文字を使うか迷ってしまいます。当たりの頭文字が「あ」なので,入っている当たりの個数パラメータを $A$ としました。

Tag: いろいろな確率分布の平均,分散,特性関数などまとめ