分散の意味と2通りの求め方・計算例

更新 2024/12/29

分散の意味

分散とは，データの「バラつきの大きさ」「散らばりの大きさ」を表す指標。

分散が大きい → バラつきが大きい，平均から遠いものが多い
分散が小さい → バラつきが小さい，全部が平均に近い，まとまっている

分散の意味

分散の意味 や 分散の定義式の理由，分散をすばやく計算する方法 について解説します。

分散の定義と計算例

分散の定義

分散とは，「平均からの差」の二乗の平均のこと。式で書くと，分散は $\sigma^2=\dfrac{1}{n}\displaystyle\sum_{i=1}^n(x_i-\mu)^2$ ただし， $n$ はデータの数で， $x_i$ は各データの値， $\mu$ は平均です。

つまり，分散は以下の3ステップで計算できます。

「平均 $\mu$ 」を計算する
「平均からの差の二乗 $(x_i-\mu)^2$ 」を計算する
その結果の平均を計算する

具体例で分散を計算してみましょう。

例題

$(5,6,7,7,10)$ というデータに対して分散を計算せよ。

解答

手順1. 平均を計算

$\dfrac{5+6+7+7+10}{5}=7$

手順2.「平均からの差の二乗」を計算

それぞれのデータと $7$ の差の二乗を計算する：

$(5-7)^2=4$
$(6-7)^2=1$
$(7-7)^2=0$
$(7-7)^2=0$
$(10-7)^2=9$

手順3. 計算結果の平均を計算

$\dfrac{4+1+0+0+9}{5}=2.8$

つまり，分散は $2.8$ になります。

分散の意味

「5人のテストの点数(10点満点)」について，以下の2つの状況を考えてみます。
状況1： テストの点数がそれぞれ
(5,6,7,7,10)(5,6,7,7,10)(5,6,7,7,10)
状況2： テストの点数がそれぞれ
(6,7,7,7,8)(6,7,7,7,8)(6,7,7,7,8)
どちらも平均点を計算してみると
777 点になります。しかし，
状況1は「点数が比較的バラバラ」
状況2は「全員が平均点に近い」
と言えます。このように，平均点が同じでも「データがどれくらいバラついているか」によって，状況が変わります。分散は「データがどれくらいバラついているか」を数値で表したものです。実際，状況1の分散は 2.82.82.8 で状況2の分散は 0.40.40.4 になります。

分散の記号・呼び方

分散は $\sigma^2$ という記号で表されることが多いです。
分散は英語で Variance なので，確率変数 $X$ の分散を $V[X]$ や $\mathrm{Var}[X]$ で表すことが多いです。
分散は $(X-\mu)^2$ の期待値なので $E[(X-\mu)^2]$ と表すこともあります。分散は，平均まわりの二次モーメントと呼ばれることもあります。
分散の式に登場する $(x_i-\mu)$ のこと（平均との差のこと）を偏差と言います。

分散をすばやく計算する方法

公式

分散は 「二乗の平均」 と 「平均の二乗」 の差で計算できる。つまり，分散 $\sigma^2$ は $\sigma^2=\dfrac{1}{n} \sum_{i=1}^nx_i^2-\left(\dfrac{1}{n} \sum_{i=1}^nx_i\right)^2$ となる。

最初の例題について，こちらの方法で計算してみます。

例題（再掲）

$(5,6,7,7,10)$ の分散を求めよ。

解答

平均は $\dfrac{5+6+7+7+10}{5}=7$ なので 「平均の二乗」 は $7^2=49$
一方 「二乗の平均」 は $\begin{aligned} &\dfrac{5^2+6^2+7^2+7^2+10^2}{5}\\ &=\dfrac{259}{5}=51.8 \end{aligned}$
よって，分散は 「二乗の平均」 と 「平均の二乗」 の差なので $51.8-49=2.8$

さっきと同じ答えになりました！

分散の計算方法を2つ紹介しました：

方法1: 分散の定義から計算。つまり「平均からの差の二乗」の平均
方法2. 「二乗の平均」と「平均の二乗」の差，という公式で計算。

今回の例では，どちらの計算方法でも手間はあまり変わりませんが，平均値がキリの悪い数のときは2番目の方法が楽なことも多いです。少なくとも検算にはなります（エクセルなどの関数で計算するなら関係ありませんが）。

分散をすばやく計算する方法の証明

分散が 「二乗の平均」 と 「平均の二乗」 の差で計算できることを証明しておきます。

$x_i$ などの値は直接用いずに，期待値のまま計算していきます。

証明

$\begin{aligned} \mathrm{Var}[X]&=E[(X-\mu)^2]\\ &=E[X^2-2\mu X+\mu^2]\\ &=E[X^2]-2\mu E[X]+\mu^2\\ &=E[X^2]-2\mu^2+\mu^2\\ &=E[X^2]-\mu^2 \end{aligned}$

ただし，三行目への変形で期待値の線形性： $E[X+Y]=E[X]+E[Y],\ E[aX]=aE[X]$

を用いた。

ちなみにこの定理と証明について，似たようなものが共分散にも存在します。→共分散の意味と簡単な求め方

分散の式の理由

分散はデータのバラつき具合を表す指標ですが，なぜ

1n∑i=1n(xi−μ)2
\dfrac{1}{n} \sum_{i=1}^n(x_i-\mu)^2
n1​i=1∑n​(xi​−μ)2
という式で定義されるのでしょうか？
理由データ
xix_ixi​
 が平均
μ\muμ
 から離れているほど
(xi−μ)2(x_i-\mu)^2(xi​−μ)2
 は大きくなるので，上の式で分散を定義すれば
「バラつきが大きいほど分散が大きくなる」と言えます。つまり，データのバラつき具合を表す指標になります。
バラつき具合を表す指標は他にもある分散の定義は偏差の二乗和の平均ですが「二乗」であることに絶対的な意味はありません。例えば，
1n∑i=1n∣xi−μ∣
\dfrac{1}{n} \sum_{i=1}^n|x_i-\mu|
n1​i=1∑n​∣xi​−μ∣
という式で定義される絶対値平均誤差という指標もあります（絶対値をつけないと必ず0になり意味のある指標にはなりません）。
ただし，多くの確率分布に対して分散の計算は楽（綺麗な形で求まる）なので分散が広く使われています。
また，単位の次元をそろえるために
分散の平方根を取った標準偏差 σ\sigmaσ が用いられることも多いです：
σ=1n∑i=1n(xi−μ)2
\sigma= \sqrt{\dfrac{1}{n}\sum_{i=1}^n(x_i-\mu)^2}
σ=n1​i=1∑n​(xi​−μ)2​
参考：標準偏差の意味と分散との違い
私は日常会話でも「当たり外れが大きい」という意味で「分散」という言葉をけっこう使います。
Tag:数学1の教科書に載っている公式の解説一覧

この記事の監修者

マスオ

高校数学の美しい物語の管理人。「わかりやすいこと」と「ごまかさないこと」の両立を意識している。著書に『高校数学の美しい物語』『超ディープな算数の教科書』。記事の誤植やわかりにくい等のご指摘はお気軽にメールください！