2015/02/26

不偏標本分散の意味とn-1で割ることの証明


平均 $\mu$,分散 $\sigma^2$ の分布(母集団)からランダムに抽出したサンプルの値を $x_1,x_2,\cdots, x_n$ とする。
このとき, $u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2$
とおくと, $E[u^2]=\sigma^2$ となる。 $u^2$ を不偏標本分散と言う。

ただし,$\overline{x}=\dfrac{x_1+x_2+\cdots +x_n}{n}$ は標本平均です。

不偏標本分散(不偏分散とも)の意味と,$n-1$ が登場することのきちんとした証明を解説します。

母分散,標本分散,不偏分散

まずは,母分散,標本分散,不偏分散の違い(定義)をきちんと理解しておきましょう。

  • 母分散:全体の分布(母集団)の分散。未知数であることが多い。
  • 標本分散:標本(データ)の分散。 $\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2$
  • 不偏標本分散:標本分散を $\dfrac{n}{n-1}$ 倍したもの。 $u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2$

平均 $0$,分散 $1.2$ のとある分布に従う母集団から3つサンプルを取ってきたら$-1,0,1$ という値だった。

このとき
母分散→もとの分布の分散なので1.2
標本分散→$-1,0,1$ の分散なので計算すると $\dfrac{2}{3}$
不偏標本分散→標本分散の $\dfrac{3}{2}$ 倍なので1

なぜ不偏分散が重要なのか

不偏分散が重要なのは(ランダムサンプリングでは)不偏分散の期待値が母分散と一致するからです。

定理:$E[u^2]=\sigma^2$

母分散を少数のサンプルから推定したいときに,期待値が母分散(推定したいもの)と一致するような推定量を使いたくなるのは自然でしょう。そのような嬉しい性質(不偏性)を満たすのは標本分散ではなく不偏分散なのです。標本分散を $\dfrac{n}{n-1}$ 倍して調整することで不偏分散が得られるのです。

数式を使わない感覚的な説明

上記の定理は数式を使ってきちんと証明しなくてはいけません。

しかしながら,$\dfrac{n}{n-1}$ 倍する理由は分からなくても,標本分散の期待値が母分散より小さくなることは以下の説明によりなんとなく理解できると思います(この説明を正当化するにも数式が必要ですが)。

「標本分散を計算するときに使う平均 $\overline{x}$ は母平均ではなく標本平均なので,標本分散だと平均からの差の二乗和(散らばり具合)を小さく見積もってしまう

分散をn-1で割る理由

(図の説明:サンプル数が少ないと図のように母平均と標本平均が大きくズレることがある。本当に評価したいのは「青い両向き矢印の長さの二乗和(大きい)」だが,標本分散は「緑の両向き矢印の長さの二乗和(小さい)」を評価してしまう)

注:分散の自由度が $n-1$ だから $n-1$ で割るんだよ,という説明は僕には理解(納得)できません。

不偏性の証明

それではきちんと証明します!数式にシグマが入って煩雑になるのを防ぐために $n=3$ の場合で証明します。一般の場合も全く同様にできます。
式の対称性に注目してひたすら展開するだけです,けっこう楽しい!

証明

$E[\displaystyle\sum_{i=1}^n(x_i-\overline{x})^2]=(n-1)\sigma^2$ であることを証明すればよい。

$n=3$ のとき,期待値の中身は
$(x_1-\dfrac{x_1+x_2+x_3}{3})^2+(x_2-\dfrac{x_1+x_2+x_3}{3})^2+(x_3-\dfrac{x_1+x_2+x_3}{3})^2\\
=(\dfrac{2x_1-x_2-x_3}{3})^2+(\dfrac{-x_1+2x_2-x_3}{3})^2+(\dfrac{-x_1-x_2+2x_3}{3})^2\\
=\dfrac{6}{9}(x_1^2+x_2^2+x_3^2)+\dfrac{-4-4+2}{9}(x_1x_2+x_2x_3+x_3x_1)$
よって,対称性($E[x_i^2]$ が $i$ によらないことなど)から,
$E[u^2]=\dfrac{6}{9}\cdot 3E[x_1^2]-\dfrac{6}{9}\cdot 3E[x_1x_2]
\\=2E[x_1^2]-2E[x_1x_2]$

よって,あとは $E[x_1^2]$ と $E[x_1x_2]$ を求めればよい。
これは,期待値と分散に関する公式一覧の公式8と9より求まる:
$\sigma^2=E[x_1^2]-\mu^2$
$0=\mathrm{Cov}(x_1,x_2)=E[x_1x_2]-\mu^2$
(ランダムサンプリングなので共分散は0)

したがって,
$E[u^2]=2(\mu^2+\sigma^2)-2\mu^2=2\sigma^2$
となり,$n=3$ の場合に $E[u^2]=(n-1)\sigma^2$ が証明できた。

補足(特殊ケースなら証明は簡単)
$x_1,\cdots, x_n$ が互いに独立に平均 $\mu$,分散 $\sigma^2$ の正規分布に従うとき,
$\dfrac{(n-1)u^2}{\sigma^2}$ は自由度 $n-1$ のカイ二乗分布に従います→不偏分散と自由度n-1のカイ二乗分布

自由度 $n-1$ のカイ二乗分布の期待値は $n-1$ なので $E[u^2]=\sigma^2$ が分かります。

nの場合にも証明してみてください!よい計算練習になります。