2015/04/15

分散の意味と二通りの計算方法

分野: データの分析,確率  レベル: 基本公式

分散 $V[X]$ はデータの散らばり具合を表す指標。データを $x_1,x_2,\cdots ,x_n$ とすると
$\mathrm{Var}[X]=E[(X-\mu)^2]=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2$

ただし,$\mu$ はデータの平均です。分散は $V[X],\sigma^2$ と書くこともあります。

計算例

例題

受験者5人の数学のテストの点数がそれぞれ$(50,60,70,70,100)$ であった。分散を求めよ。

解答

まず平均を求める必要がある:$\mu=\dfrac{50+60+70+70+100}{5}=70$
あとは,分散の定義より
$\mathrm{Var}[X]=\dfrac{1}{5}\{(50-70)^2+(60-70)^2+(70-100)^2\}\\
=\dfrac{1}{5}(400+100+900)=280$

分散の意味

・分散はデータの散らばり具合を表す指標です。
分散が大きい→平均 $\mu$ から遠く離れたデータが多い→散らばり大
分散が小さい→平均 $\mu$ に近いデータが多い→散らばり小
と解釈できます。

・分散の定義は偏差の二乗和ですが,「二乗」であることに絶対的な意味はありません。以下のような絶対値平均誤差という指標もあります。
$\dfrac{1}{n}\displaystyle\sum_{i=1}^n|x_i-\mu|$
(絶対値をつけないと必ず0になり意味のある指標にはなりません)

・多くの確率分布に対して分散の計算は楽(綺麗な形で求まる)なので分散が広く使われているのだと思います。

・なお,単位の次元をそろえるために分散の平方根を取った標準偏差 $\sigma$ が用いられることも多いです:
$\sigma=\sqrt{\mathrm{Var}[X]}=\displaystyle\sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}$

分散の別の計算法

分散は二次のモーメント $E[X^2]$ および一次のモーメント $E[X]=\mu$ を使って以下のように計算することもできます:

定理:$\mathrm{Var}[X]=E[X^2]-\mu^2\\
=\dfrac{1}{n}\displaystyle\sum_{i=1}^nx_i^2-\left(\dfrac{1}{n}\displaystyle\sum_{i=1}^nx_i\right)^2$

最初の例題について,こちらの方法で計算してみます。

例題(再掲):$(50,60,70,70,100)$ の分散を求めよ。

$E[X^2]=\dfrac{50^2+60^2+70^2+70^2+100^2}{5}\\=\dfrac{25900}{5}=5180$
これと $\mu=70$ より
$\mathrm{Var[X]}=5180-4900=280$
となりさっきと同じ答えになりました!

注:この例ではこちらの方法の方が少し計算がめんどくさかったですが,平均値がキリの悪い数字のときはこちらの方法が楽なことも多いです。少なくとも検算にはなります。
(エクセルとかで計算するなら関係ないけど)

定理の証明

$x_i$ などの値は直接用いずに,期待値のまま計算していきます。

証明

$\mathrm{Var}[X]=E[(X-\mu)^2]\\
=E[X^2-2\mu X+\mu^2]\\
=E[X^2]-2\mu E[X]+\mu^2\\
=E[X^2]-2\mu^2+\mu^2\\
=E[X^2]-\mu^2$
ただし,三行目への変形で期待値の線形性:$E[X+Y]=E[X]+E[Y],E[aX]=aE[X]$ を用いた。

ちなみにこの定理と証明について,似たようなものが共分散にも存在します。→共分散の意味と簡単な求め方

僕は日常会話でも「当たり外れが大きい」という意味で「分散」という言葉をけっこう使います。

Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 基本公式