最終更新:2019/04/27

分散の意味と二通りの計算方法

分野: データの分析,確率  レベル: 基本公式

分散とは,データの散らばりの大きさを表す指標です。分散が小さいほど「全員が平均に近い」と言え,分散が大きいほど「平均から遠いデータが多い」と言えます。

このページでは,分散の意味分散の定義式の理由,そして分散を効率的に計算する方法について解説します。

分散の意味

「5人のテストの点数」について,以下の2つの状況を考えてみます。

状況1:
テストの点数がそれぞれ $(50,60,70,70,100)$

状況2:
テストの点数がそれぞれ $(69,70,70,70,71)$

どちらの状況も平均点を計算してみると $70$ 点になります。しかし,
状況1は「点数が比較的バラバラ」
状況2は「全員が平均点に近い」
と言えます。

このように,平均点が同じでも「データがどれくらいバラついているか」によって,状況が変わります。分散は「データがどれくらいバラついているか」を数値で表したものです。

分散の定義と計算例

分散の定義は「平均からの差の二乗」の平均です。

例えば,
状況1:
テストの点数がそれぞれ $(50,60,70,70,100)$

の分散を計算してみましょう。

手順1. 平均を計算
$\dfrac{50+60+70+70+100}{5}=70$

手順2.「平均からの差の二乗」を計算
それぞれ,
$(50-70)^2=400$
$(60-70)^2=100$
$(70-70)^2=0$
$(70-70)^2=0$
$(100-70)^2=900$

手順3. 計算結果の平均を計算
$\dfrac{400+100+0+0+900}{5}=280$

つまり,分散は $280$ になります。

式で書くと,分散は
$\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2$
となります。

ただし,$n$ はデータの数で,$x_i$ は各データの値,$\mu$ は平均です。

分散の記号・呼び方

分散は $\sigma^2$ という記号で表されることが多いです。

また,分散は英語で Variance なので,確率変数 $X$ の分散を $V[X]$$\mathrm{Var}[X]$ で表すことが多いです。

また,分散は $(X-\mu)^2$ の期待値なので $E[(X-\mu)^2]$ と表すこともあります。分散は,平均まわりの二次モーメントと呼ばれることもあります。

分散の式に登場する $(x_i-\mu)$ のこと(平均との差のこと)を偏差と言います。

分散の式の理由

分散はデータの散らばり具合を表す指標ですが,なぜ
$\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2$
という式で定義されるのでしょうか?

理由

データ $x_i$ が平均 $\mu$ から離れているほど $(x_i-\mu)^2$ は大きくなるので,上の式で分散を定義すれば「散らばりが大きいほど分散が大きくなる」と言えます。つまり,分散はデータの散らばり具合を表す指標と言えます。

散らばり具合を表す指標は他にもある

分散の定義は偏差の二乗和の平均ですが「二乗」であることに絶対的な意味はありません。例えば,
$\dfrac{1}{n}\displaystyle\sum_{i=1}^n|x_i-\mu|$
という式で定義される絶対値平均誤差という指標もあります(絶対値をつけないと必ず0になり意味のある指標にはなりません)。

ただし,多くの確率分布に対して分散の計算は楽(綺麗な形で求まる)なので分散が広く使われています。

また,単位の次元をそろえるために分散の平方根を取った標準偏差 $\sigma$ が用いられることも多いです:
$\sigma=\displaystyle\sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}$
参考:標準偏差の意味と分散との違い

分散の効率的な計算法

分散は「二乗の平均」「平均の二乗」の差で計算できる。つまり,分散 $\sigma^2$ は
$\sigma^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^nx_i^2-\left(\dfrac{1}{n}\displaystyle\sum_{i=1}^nx_i\right)^2$
となる。

最初の例題について,こちらの方法で計算してみます。

例題(再掲):$(50,60,70,70,100)$ の分散を求めよ。

平均は
$\dfrac{50+60+70+70+100}{5}=70$
なので
「平均の二乗」は $70^2=4900$

一方「二乗の平均」
$\dfrac{50^2+60^2+70^2+70^2+100^2}{5}
\\=\dfrac{25900}{5}=5180$

よって,分散は「二乗の平均」「平均の二乗」の差なので
$5180-4900=280$
となり,さっきと同じ答えになりました!

分散の計算方法を2つ紹介しました:
方法1.「平均からの差の二乗」の平均
方法2.「二乗の平均」と「平均の二乗」の差

今回の例では,どちらの計算方法でも手間はあまり変わりませんが,平均値がキリの悪い数字のときは2番目の方法が楽なことも多いです。少なくとも検算にはなります(エクセルとかで計算するなら関係ありませんが)。

分散の効率的な計算式の証明

分散が「二乗の平均」「平均の二乗」の差で計算できることを証明しておきます。

$x_i$ などの値は直接用いずに,期待値のまま計算していきます。

証明

$\mathrm{Var}[X]=E[(X-\mu)^2]\\
=E[X^2-2\mu X+\mu^2]\\
=E[X^2]-2\mu E[X]+\mu^2\\
=E[X^2]-2\mu^2+\mu^2\\
=E[X^2]-\mu^2$
ただし,三行目への変形で期待値の線形性:$E[X+Y]=E[X]+E[Y],E[aX]=aE[X]$
を用いた。

ちなみにこの定理と証明について,似たようなものが共分散にも存在します。→共分散の意味と簡単な求め方

僕は日常会話でも「当たり外れが大きい」という意味で「分散」という言葉をけっこう使います。

Tag: 数学1の教科書に載っている公式の解説一覧