超幾何分布の意味と期待値の計算

超幾何分布の意味

合計 NN 個のものの中に,当たりが AA 個入っている。この NN 個から nn 個選んだときに,当たりが何個あるか?

を表す分布を超幾何分布と言う(パラメータは N,A,nN,A,n の3つ)。

超幾何分布の意味

超幾何分布の確率質量関数

確率質量関数
  • 超幾何分布の確率質量関数は,
    fN,A,n(x)=ACxNACnxNCnf_{N,A,n}(x)=\dfrac{{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

  • ただし,xx がとりうる範囲は,
    max{0,nN+A}xmin{A,n}\max\{0,n-N+A\}\leq x\leq \min\{A,n\}

証明

当たりが xx 個入っている確率 fN,A,n(x)f_{N,A,n}(x) を計算したい。

まず,全ての選び方の数は,NCn{}_N\mathrm{C}_n 通り。

このうち,当たりが xx 個(つまりハズレが nxn-x 個)である選び方の数を計算したい。

そもそも,当たりの数とハズレの数の制約から,

0xA0\leq x\leq A かつ 0nxNA0\leq n-x\leq N-A

の場合にのみ,そのような選び方が存在する。この条件を変形すると,

max{0,nN+A}xmin{A,n}\max\{0,n-N+A\}\leq x\leq \min\{A,n\}

となる。そして,この条件を満たすときに,当たりが xx 個となる選び方は,

ACxNACnx{}_A\mathrm{C}_x\cdot {}_{N-A}\mathrm{C}_{n-x}

通り。よって,超幾何分布の確率質量関数は,

fN,A,n(x)=ACxNACnxNCnf_{N,A,n}(x)=\dfrac{{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

超幾何分布の期待値(きれいな方法)

超幾何分布の期待値は,nAN\dfrac{nA}{N}

これを2通りの方法で導出します。まずは,和の期待値が分解できることを使ったおもしろい計算方法です。

証明1

超幾何分布の問題設定における抽出について
ii 個目に選んだものが当たりなら 11,ハズレなら 00 となる確率変数」を XiX_i とする。

このとき,超幾何分布の期待値は,
E[X1+X2++Xn]E[X_1+X_2+\cdots +X_n]

XiX_i は互いに独立ではないが,そのような場合でも和の期待値は期待値の和に分解できるので,上式は

E[X1]+E[X2]++E[Xn]E[X_1]+E[X_2]+\cdots +E[X_n]

となる。 して,i=1,2,,ni=1,2,\cdots,n に対して,E[Xi]=ANE[X_i]=\dfrac{A}{N} なので,求める期待値は nAN\dfrac{nA}{N}

超幾何分布の期待値(がんばる方法)

期待値の定義に従って直接計算することもできます。

rnCrr{}_n\mathrm{C}_r = nn1Cr1n{}_{n-1}\mathrm{C}_{r-1}

という公式を使います。→二項係数の有名公式

証明2

期待値は,定義より,

xXxfN,A,n(x)=xXxACxNACnxNCn\displaystyle\sum_{x\in X}xf_{N,A,n}(x)\\ =\displaystyle\sum_{x\in X}\dfrac{x\cdot{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

ただし,和を取る範囲 XX は,max{0,nN+A}xmin{A,n}\max\{0,n-N+A\}\leq x\leq \min\{A,n\} を満たす整数 xx 全体の集合。ここで,x=0x=0 の部分は和に寄与しないので,

xXxACxNACnxNCn\displaystyle\sum_{x\in X'}\dfrac{x\cdot{}_A\mathrm{C}_x\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_N\mathrm{C}_n}

ただし,XX'max{1,nN+A}xmin{A,n}\max\{1,n-N+A\}\leq x\leq \min\{A,n\} を満たす整数 xx 全体の集合,としても値は同じ。

これを上記の二項係数の公式を使って変形すると,

nANxXA1Cx1NACnxN1Cn1\dfrac{nA}{N}\displaystyle\sum_{x\in X'}\dfrac{{}_{A-1}\mathrm{C}_{x-1}\cdot{}_{N-A}\mathrm{C}_{n-x}}{{}_{N-1}\mathrm{C}_{n-1}}

となる。11 平行移動すると,

nANx1YA1Cx1(N1)(A1)C(n1)(x1)N1Cn1\dfrac{nA}{N}\displaystyle\sum_{x-1\in Y}\dfrac{{}_{A-1}\mathrm{C}_{x-1}\cdot{}_{(N-1)-(A-1)}\mathrm{C}_{(n-1)-(x-1)}}{{}_{N-1}\mathrm{C}_{n-1}}

となります。ただし,YY

max{0,(n1)(N1)+(A1)}ymin{A1,n1}\max\{0,(n-1)-(N-1)+(A-1)\}\leq y\\ \leq \min\{A-1,n-1\}

を満たす整数 yy 全体の集合(XX' を定める不等式の各辺から 11 を引いた)。

上式のシグマの中身は,パラメータが (N1,A1,n1)(N-1,A-1,n-1) である超幾何分布の確率質量関数である。和を取る範囲も,パラメータが (N1,A1,n1)(N-1,A-1,n-1) である超幾何分布のものと対応している。そのため,和を取ると 11 になる。

結局残るのは nAN\dfrac{nA}{N}

※場合分けを意識していない計算(max{0,nN+A}=0\max\{0,n-N+A\}=0 を仮定してしまっている計算)をやってしまいがちです。きちんとやるとけっこうめんどうです。

パラメータが3つもあると,どの文字を使うか迷ってしまいます。当たりの頭文字が「あ」なので,入っている当たりの個数パラメータを AA としました。

Tag:いろいろな確率分布の平均,分散,特性関数などまとめ