2015/05/09

二項分布の正規近似(ラプラスの定理)


二項分布の正規近似(ド・モアブル–ラプラスの定理)
二項分布 $\mathrm{Bin}(n,p)$ は $n$ が十分大きいとき,平均 $np$,分散 $np(1-p)$ の正規分布に近づく。

ド・モアブル–ラプラスの定理の嬉しさ,中心極限定理との関係など。

ド・モアブル–ラプラスの定理

$X_i$ を確率 $p$ で $1$,$1-p$ で $0$ を取る確率変数とします($X_i$ たちは互いに独立とする)。このとき,$X=\displaystyle\sum_{i=1}^nX_i$ は二項分布 $\mathrm{Bin}(n,p)$ に従います。→二項分布の平均と分散の二通りの証明

このように,二項分布は反復試行の成功回数を表現する重要な分布ですが,$n$ が大きいと扱いにくいので,(正規分布表なども用意されていて)扱いやすい正規分布で近似してやろうという話です。

標準化バージョン

冒頭の主張は正規分布の標準化を使うことにより,

$X$ が $\mathrm{Bin}(n,p)$ に従うとき $\dfrac{X-np}{\sqrt{np(1-p)}}$ は近似的に標準正規分布に従う

と言うこともできます。

応用例

以上をふまえて,二項分布の正規近似の嬉しさを実感できる例題を解説します。

例題

公平なコインを10000回投げるとき,表が5100回以上出る確率を求めよ。

解答

二項分布から直接計算するのは厳しい。試行回数が多いので正規分布で近似できる。表が出た回数 $X$ は二項分布 $\mathrm{Bin}(10000,\frac{1}{2})$ に従う。
よって,$Y=\dfrac{X-10000\cdot\frac{1}{2}}{\sqrt{10000\cdot \frac{1}{2}\frac{1}{2}}}=\dfrac{X-5000}{50}$ は近似的に標準正規分布に従う。

求める確率は,$P(X \geq 5100)=P(Y\geq 2)$ であり,これは標準正規分布表より,約 $2.28$ %と分かる。(2シグマ区間の半分)

注:二項分布の正規近似は仮説検定にも使うことができます。→統計学的仮説検定の考え方と手順

中心極限定理との関係

二項分布の正規近似は中心極限定理の特殊ケースになっています。中心極限定理を認めれば,ド・モアブル–ラプラスの定理はすぐに証明できます。
(中心極限定理については→大数の法則と中心極限定理の意味と関係

証明

$X_i$ の平均は $p$,分散は $p(1-p)$ である。
よって,中心極限定理により,$n$ が十分大きいとき $\dfrac{X}{n}-p$ の従う分布は平均 $0$,分散 $\dfrac{p(1-p)}{n}$ の正規分布に近づく。
これは,$\dfrac{X-np}{\sqrt{np(1-p)}}$ が近似的に標準正規分布に従うことを表している。

注:中心極限定理の証明は難しいですが,その特殊ケースであるド・モアブル–ラプラスの定理については,スターリングの公式を用いた式変形で証明できます(それでもけっこう大変ですが)。de Moivre–Laplace theorem(英語版Wikipedia)

最近統計の記事が多いことに関して,賛否両論ありますが,需要がある&書いていて楽しいのでこれからも続けていきます。

Tag: 正規分布の基礎的な知識まとめ