2015/05/06

大数の法則と中心極限定理の意味と関係


大数の法則と中心極限定理の大雑把な意味を述べた後,両者の関係,違いを解説します。

状況設定

  • 確率変数 $X_1,X_2,\cdots$ が互いに独立に同一の分布(平均を $\mu$,分散を $\sigma^2$ とする)に従うとします。
  • このとき,サンプル平均 $\overline{X}_n=\dfrac{X_1+X_2+\cdots +X_n}{n}$ も確率変数です。 $n$ が大きいときに $\overline{X}_n$ がどのように振る舞うのかを調べるのが大数の法則&中心極限定理です。

大数の法則

大数の法則の「大雑把な意味」:
$n$ が大きいときサンプル平均 $\overline{X}_n$ は真の平均 $\mu$ に近づく。

この「近づく」という意味を数学的にきちんと述べようとしたときに,二通りの収束の概念が登場します。

大数の弱法則:サンプル平均は真の平均に確率収束する。
式で書くと,任意の $\epsilon > 0$ に対して $\displaystyle\lim_{n\to\infty}P(|\overline{X}_n-\mu| \geq \epsilon)=0$

大数の強法則:サンプル平均は真の平均に概収束する。
式で書くと,$P(\displaystyle\lim_{n\to\infty}X_n=\mu)=1$

  • この違いをきちんと理解するには確率収束と概収束について理解する必要がありますが,とりあえずは「大雑把な意味」を理解しておけばOKです。
  • 大数の弱法則については大数の法則の具体例と証明で詳しく解説しています。
  • 大数の法則には様々な一般形(仮定を弱めたもの)があります。
    例えば,分布の同一性や分散の存在を仮定しないバージョン,$X_i$ たちが独立でなくて無相関でもOKというバージョン(弱法則)などがあります。

中心極限定理

中心極限定理の「大雑把な意味」:
$n$ が大きいときサンプル平均と真の平均の差:$\overline{X}_n-\mu$ が従う分布は平均 $0$,分散 $\dfrac{\sigma^2}{n}$ の正規分布に近づく。

正規分布の標準化を使うことにより,
$\dfrac{\sqrt{n} (\overline{X}_n-\mu)}{\sigma}$ は標準正規分布に近づくと言い換えることもできます。

  • 「分布が近づく」こと数学的にをきちんと述べるためには法則収束(弱収束)という概念が必要になります。
  • $X_i$ たちが従う分布が(平均と分散が存在する限り)どんなものであっても正規分布が登場するというのは神秘的です!
  • 中心極限定理の一番有名な具体例は二項分布の正規近似です。→二項分布の正規近似(ラプラスの定理)

大数の法則と中心極限定理の関係

  • 大数の法則,中心極限定理ともにサンプル平均 $\overline{X}_n$ の振る舞いに関する定理です。
  • $\overline{X}_n\approx \mu$ という評価が大数の法則。ではその両辺の差 $\overline{X}_n-\mu$ の挙動はどうなるのか,$0$ に近づくのは分かったが,どれくらいのスピードでどのように近づくのか?と,さらに深堀りしたのが中心極限定理:$\overline{X}_n-\mu\approx \dfrac{\sigma}{\sqrt{n}}N(0,1)$ です。
    このような意味で,中心極限定理は大数の法則の精密化とみなすことができます。
  • この記事で紹介した(平均,分散が存在し,互いに独立に同一の分布に従うという)ベーシックな大数の弱法則は中心極限定理から導出することができます。→The Laws of Large Numbers Compared(英語のPDFファイルです)
    しかし,より一般的な(仮定を弱めた)大数の弱法則は中心極限定理から導出することはできません。つまり「中心極限定理が大数の法則を包含している」と言うことはできないのです。
「大数の法則」「中心極限定理」どちらも名前がかっこいいですね!

Tag: 正規分布の基礎的な知識まとめ