2015/08/07

不偏分散と自由度n-1のカイ二乗分布


定理:
$X_1,X_2,\cdots,X_n$ が互いに独立に平均 $\mu$,分散 $\sigma^2$ の正規分布に従うとき,
$\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ は自由度 $n-1$ のカイ二乗分布に従う。

ただし,$\overline{X}=\dfrac{X_1+X_2+\cdots +X_n}{n}$ です。

定理の意味,重要性

  • 不偏分散 $u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ を用いて, $\dfrac{(n-1)u^2}{\sigma^2}$ が自由度 $n-1$ のカイ二乗分布に従うと言うことも多いです。
    (不偏分散については→不偏標本分散の意味とn-1で割ることの証明
  • 正規分布の母分散を検定する際(ただし母平均が未知の場合)に使われる重要な定理です。→母分散の推定,検定(正規分布)
  • 重要な定理のわりに,多くの統計の教科書では定理の証明が割愛されているので,以下で証明します。直交変換を用いた美しい証明です。

標準正規分布の場合の証明

まず標準正規分布の場合($\mu=0$,$\sigma^2=1$)に証明します。本質的な部分です。

証明の概略

一行目の要素が全て $\dfrac{1}{\sqrt{n}}$ であるような直交行列の一つを $Q$ とする。
$\begin{pmatrix}Y_1\\Y_2\\\vdots\\Y_n\end{pmatrix}=Q\begin{pmatrix}X_1\\X_2\\\vdots\\X_n\end{pmatrix}$ と変数変換する。

このとき,$Y_1,Y_2,\cdots,Y_n$ は互いに独立に平均 $0$,分散 $\sigma^2$ の正規分布に従う(→補足1)。

また,$\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2=\displaystyle\sum_{i=2}^nY_i^2$
である(→補足2)。

つまり $\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ は,標準正規分布に独立に従う $n-1$ 個の確率変数の二乗和で表現できたので,自由度 $n-1$ のカイ二乗分布に従うことが分かる。→正規分布の二乗和がカイ二乗分布に従うことの証明


以下細かい計算などです。
補足1
$X_1,X_2,\cdots,X_n$ は互いに独立に標準正規分布に従う
→ $X_i$ たちの同時密度関数は $\dfrac{1}{(2\pi)^{\frac{n}{2}}}\exp(-\dfrac{1}{2}x^{\top}x)$
→($Q$ の行列式が $1$ であることと $\|X\|=\|Y\|$ より)
$Y_i$ たちの同時密度関数は $\dfrac{1}{(2\pi)^{\frac{n}{2}}}\exp(-\dfrac{1}{2}y^{\top}y)$
→ $Y_1,Y_2,\cdots,Y_n$ は互いに独立に標準正規分布に従う

補足2
$\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2\\
=\displaystyle\sum_{i=1}^nX_i^2-2\overline{X}\sum_{i=1}^nX_i+n\overline{X}^2\\
=\displaystyle\sum_{i=1}^nX_i^2-n\overline{X}^2$
ここで,直交変換の性質 $\|X\|=\|Y\|$ を用いると上式は,
$\displaystyle\sum_{i=1}^nY_i^2-\dfrac{1}{n}(\sum_{i=1}^nX_i)^2\\
=\displaystyle\sum_{i=1}^nY_i^2-Y_1^2\\
=\displaystyle\sum_{i=2}^nY_i^2$

一般の場合の証明

正規分布の標準化を使うだけです。

証明

$X_1,X_2,\cdots,X_n$ が互いに独立に平均 $\mu$,分散 $\sigma^2$ の正規分布に従うので
$Z_i=\dfrac{X_i-\mu}{\sigma}$ たちは互いに独立に標準正規分布に従う。

標準正規分布の場合にはさきほど証明したので,
$\displaystyle\sum_{i=1}^n(Z_i-\overline{Z})^2$ は自由度 $n-1$ のカイ二乗分布に従う。

ここで,$Z_i-\overline{Z}=\dfrac{X_i-\overline{X}}{\sigma}$ なので,$\dfrac{1}{\sigma^2}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ は自由度 $n-1$ のカイ二乗分布に従うことが分かる。

副産物

さきほどの証明の副産物としてもう一つ重要な定理が得られます。

平均 $\overline{X}$ と不偏分散 $u^2=\dfrac{1}{n-1}\displaystyle\sum_{i=1}^n(X_i-\overline{X})^2$ は独立である。

証明

$Y_1,Y_2,\cdots,Y_n$ は独立(さっき示した)
→ $Y_1$ と $\displaystyle\sum_{i=2}^nY_i^2$ は独立
→ $\overline{X}$ と $u^2$ は独立

自力で思いつくのは難しいトリッキーな証明方法です。

確率・統計分野の記事一覧