2014/12/06

正規分布の基礎的な知識まとめ


正規分布の基本的な知識を整理しました。

数Bの統計分野の話題です。ほとんどの大学で数Bの統計分野は出題されませんが,正規分布はいろいろなところで登場するので理系なら知っておきたい知識です。

前提知識として「確率密度関数」を知っている必要があります。→確率密度関数の意味と具体例

正規分布の確率密度関数

確率密度関数が
$f(x)=\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{(x-\mu)^2}{2\sigma^2})$
であるような分布を正規分布(ガウス分布)という。平均は $\mu$,分散は $\sigma^2$ である。

  • 指数関数 $e^{A}$ において $A$ が複雑な式のとき書きづらいので $\exp(A)$ と書きます。
  • 正規分布の確率密度関数は複雑そうですが,基本形を考えればだいぶ簡単になります。正規分布の中でも平均が $\mu=0$,分散が $\sigma^2=1$ であるようなものが特に重要で,標準正規分布と呼ばれます。標準正規分布の確率密度関数は,$f(x)=\dfrac{1}{\sqrt{2\pi}}e^{-\tfrac{x^2}{2}}$ です。だいぶ簡単になりましたね。
  • 標準正規分布

    標準正規分布のグラフは図のようになります。例えば $0$ 以上 $a$ 以下となる確率は斜線部分の面積になります。

補足:
・多変数バージョン:多変量正規分布の確率密度関数の解説
・標準正規分布の重要性:正規分布の標準化の意味と証明

1シグマ区間

1シグマ区間
  • 標準正規分布において $[-\sigma,\sigma]$ を「1シグマ(1 $\sigma$)区間」と言います。1シグマ区間に入る確率は約68%です。偏差値40から60に相当します。→偏差値の計算方法と様々な性質
  • 同様に,$[-k\sigma,k\sigma]$ を「 $k$ シグマ区間」と言います。2シグマ区間に入る確率は約95%,3シグマ区間に入る確率は約99.7%です。偏差値20から80の間に約99.7%の人間がいるということになります。

正規分布の重要性

  • 例えば測定誤差,テストの点数,ある人間の心拍数などは(ほぼ)正規分布に従うと考えられています。
  • 正規分布がいろいろなところに登場する理由として「中心極限定理」という定理があります。

補足:

正規分布とガウス積分

ガウス積分を用いて三つの重要な性質を証明します(→ガウス積分の公式の2通りの証明)。以下の三つを理解すれば,正規分布 $f(x)$ の密度関数がなぜ複雑そうな形をしているのかが分かります。

1(規格化・正規化):正規分布の確率密度関数が本当に確率密度関数であること(全区間で積分すると1となること)

証明

$\displaystyle\int_{-\infty}^{\infty}f(x)dx=\dfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}\exp(-\dfrac{(x-\mu)^2}{2\sigma^2})dx$
ここで,$x-\mu=y$ と置換すると,上式は
$\dfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}\exp(-\dfrac{y^2}{2\sigma^2})dy$
この積分の部分はガウス積分の公式より
$\sqrt{2\sigma^2\pi}$ となるので確かに $f(x)$ を全区間で積分すると $1$ となる。

※積分区間が$-\infty$ から $\infty$ なので平行移動しても積分区間は変わりません。

正規分布の平均,分散

2(期待値):$f(x)$ で表される正規分布の期待値(平均)$E[X]$ が $\mu$ であること。これは分布が $x=\mu$ に関して対称な形をしていることから明らかですが,積分の練習として。

証明

期待値の定義より,$E[X]=\displaystyle\int_{-\infty}^{\infty}xf(x)dx$
ここで,$x-\mu=y$ と置換すると,
$E[X]=\displaystyle\int_{-\infty}^{\infty}(y+\mu)f(y+\mu)dy\\
=\displaystyle\int_{-\infty}^{\infty}yf(y+\mu)dy+\mu\int_{-\infty}^{\infty}f(y)dy$
第一項の被積分関数は奇関数×偶関数=奇関数なので積分値は $0$,第二項の積分値は先ほど示したことより $1$ なので結局 $E[X]=\mu$ となる。


3(分散・標準偏差):$f(x)$ で表される正規分布の分散 $V[X]$ が $\sigma^2$ であること。つまり,標準偏差が $\sigma$ であること。

証明

分散の定義より,$V[X]=\displaystyle\int_{-\infty}^{\infty}(x-\mu)^2\dfrac{1}{\sqrt{2\pi}\sigma}\exp(-\dfrac{(x-\mu)^2}{2\sigma^2})dx$
ここで,$x-\mu=y$ と置換すると
$V[X]=\dfrac{1}{\sqrt{2\pi}\sigma}\int_{-\infty}^{\infty}y^2\exp(-\dfrac{y^2}{2\sigma^2})dy$
一方,部分積分を使うと,
$\displaystyle\int_{-\infty}^{\infty}\exp(-\dfrac{y^2}{2\sigma^2})dy\\=\displaystyle\int_{-\infty}^{\infty}2\dfrac{1}{2\sigma^2}y^2\exp(-\dfrac{y^2}{2\sigma^2})dy$
となるので,ガウス積分の公式より
$\displaystyle\int_{-\infty}^{\infty}y^2\exp(-\dfrac{y^2}{2\sigma^2})dy\\=\sigma^2\int_{-\infty}^{\infty}\exp(-\dfrac{y^2}{2\sigma^2})dy\\=\sqrt{2\pi}\sigma^3$
以上から $V[X]=\sigma^2$

正規分布の確率密度関数は全区間で積分すると1,平均が $\mu$,分散が $\sigma^2$ となるようにうまく作られていることが分かりました!

偏差値80を越えるのがいかに難しいことかが分かります。

Tag: 数検1級の範囲と必要な公式まとめ