2015/01/27

大数の法則の具体例と証明


大数の弱法則:(適当な仮定のもとで)サンプル数を増やしていくと,サンプル平均は真の平均に確率収束する。

大数の法則について,前半は意味,具体例をざっくり説明します。後半は大数の弱法則を数学的に定式化してきちんと証明します。

ちなみに,読み方は「だいすう」ではなく「たいすう」です。

大数の法則の意味,コイン投げの例

大数の法則の意味をざっくり言うといっぱい実験すればデータの算術平均は真の平均に近づくということです。

例1

コイン投げ
表,裏がそれぞれ $\dfrac{1}{2}$ で出るようなコインを考える。表が出たら1ポイント。裏なら0ポイント(真の平均は $\mu=0.5$)。

  • 10回投げると,表が4回出た→サンプル平均は0.4。
  • 100回投げると,表が46回出た→サンプル平均は0.46
  • 10000回投げると,表が5010回出た→サンプル平均は0.5010

というように,実験の回数を増やしていくとサンプル平均が真の平均にどんどん近づいていきます。

もちろん,10000回連続で表が出る確率も $0$ ではありませんが,試行回数を増やしていくとそのように偏ってしまう確率は $0$ に収束するので無視できる(数学用語で言うと確率収束)という定理です。

サイコロの例

コイン投げに引き続いてサイコロの例です。

例2

それぞれの目が出る確率が $\dfrac{1}{6}$ であるようなサイコロを考える。 $i$ 回目に出た目を $X_i$(確率変数)とおくと,$X_1,X_2,\cdots$ たちはそれぞれ独立に同一の分布(平均は $\mu=3.5$)に従う。
このとき,$n$ 回目までに出た目の算術平均 $\dfrac{X_1+X_2+\cdots +X_n}{n}$ は $\mu$ にどんどん近づいていく(偏る確率は0に収束する)。

実際にサイコロを10000回くらい振ってみると(きちんとしたサイコロなら)サンプル平均が $3.5$ にかなり近くなっているはずです。

大数の法則の定式化

大数の法則を数学的にきちんと書いてみます。

大数の弱法則
平均 $\mu$,分散 $\sigma^2$ の分布に互いに独立に従う確率変数 $X_1,\:X_2,\cdots$ と,任意の $\epsilon > 0$ に対して,
$\displaystyle \lim_{n\to\infty}P\left(\left|\dfrac{X_1+X_2+\cdots +X_n}{n}-\mu \right| \geq \epsilon\right) =0$

「サンプル平均と真の平均の差が $\epsilon$ 以上になってしまう確率は試行回数 $n$ を増やすと0に収束する」ことを式で表しています。

大数の法則には二種類(確率収束を表す大数の弱法則と概収束を表す大数の強法則)ありますが,ここでは弱法則だけ解説します(弱法則と強法則の違いがけっこう分かりにくい&強法則の証明は難しいので)。

なお,同じ大数の弱法則でも分布の平均や分散がそれぞれ異なるパターン,無相関のみを仮定するパターンなどいくつかありますが,とりあえず上記の基本形を理解しましょう。

大数の弱法則の証明

マルコフの不等式の証明→(確率論における)チェビシェフの不等式の証明→大数の弱法則の証明という非常に有名な流れです。

前半の二つについては別記事にしています→マルコフの不等式とその証明。以下ではチェビシェフの不等式を認めた上で大数の弱法則を証明します。

チェビシェフの不等式:$P(|X-E[X]|\geq \epsilon)\leq \dfrac{\mathrm{Var}[X]}{\epsilon^2}$

証明

サンプル平均を表す確率変数を $Y_n=\dfrac{X_1+X_2+\cdots +X_n}{n}$ とおくと,期待値,分散の性質(注)より
$E[Y_n]=\dfrac{n\mu}{n}=\mu$
$\mathrm{Var}[Y_n]=\dfrac{n\sigma^2}{n^2}=\dfrac{\sigma^2}{n}$

よって,確率論におけるチェビシェフの不等式より,
$P(|Y_n-\mu|\geq \epsilon)\leq \dfrac{\sigma^2}{n\epsilon^2}$
両辺 $n\to\infty$ の極限を取ることで大数の弱法則を得る:
$\displaystyle \lim_{n\to\infty}P(|Y_n-\mu | \geq \epsilon) =0$

注:期待値の線形性はいつでも成立しますが,分散の和が和の分散に分解できるのは $X_i$ たちが互いに無相関のときだけです。→期待値と分散に関する公式一覧の公式7参照。

この部分で「 $X_i$ たちが独立」という定理の仮定が効いています(つまり,実は大数の弱法則は $X_i$ たちの独立性を仮定しなくても無相関を仮定するだけでOK)。

実際にサイコロ10000回投げるのは無理ですね。サイコロを10000個同時に投げるのなら可能かもしれませんね。

Tag: 難しめの数学雑学・ネタまとめ