最終更新:2019/04/29

共分散の意味と簡単な求め方

分野: データの分析,確率  レベル: 基本公式

共分散とは,二組の対応するデータの間の関係を表す数値です。

この記事では,共分散の意味共分散の問題点,そして共分散を簡単に計算する公式などを解説します。

共分散とは

共分散とは「国語の点数」と「数学の点数」のような「二組の対応するデータ」の間の関係を表す数値です。

共分散を計算することで,
「国語の点数」が高いほど「数学の点数」が高い傾向にあるのか?
あるいは
「国語の点数」と「数学の点数」は関係ないのか?
などが分析できます。

共分散の定義と計算例

共分散は,
「$X$ の偏差 × $Y$ の偏差」の平均
で定義されます。

※偏差とは平均との差のことです。

定義だけでは共分散の意味は分かりにくいので,簡単な具体例で計算してみます。

$5$ 人でテストを受けたデータを考える。
$X:$国語の点数,$Y$:数学の点数。
各々の点数は,$(50,50),(50,70),(80,60),(70,90),(90,100)$
このときの共分散を計算してみましょう。

まず,国語の平均点 $\mu_X$ は,
$\mu_X=\dfrac{1}{5}(50+50+80+70+90)=68$

同様に数学の平均点 $\mu_Y$ は,
$\mu_Y=\dfrac{1}{5}(50+70+60+90+100)=74$

5人について「$X$ の偏差 × $Y$ の偏差」は,
$(50-68)(50-74)=432$
$(50-68)(70-74)=72$
$(80-68)(60-74)=-168$
$(70-68)(90-74)=32$
$(90-68)(100-74)=572$

よって共分散は,「$X$ の偏差 × $Y$ の偏差」の平均なので,
$\dfrac{1}{5}(432+72-168+32+572)=188$
と計算できます。

共分散の符号の意味

共分散は,「$X$ の偏差 × $Y$ の偏差」の平均なので
共分散が大きい(正)→ $X$ が大きいとき $Y$ も大きい傾向がある
共分散が $0$ に近い→ $X$ と $Y$ にあまり関係はない
共分散が小さい(負)→ $X$ が大きいとき $Y$ は小さい傾向がある

と言えます。

例えば,上記の例だと,国語の点数と数学の点数の共分散は $0$ よりだいぶ大きいので「国語の点が高い人は数学の点も高い傾向にある」と言うことができます。直感的に納得できる結果ですね。

共分散を表す記号

共分散は英語で「Covariance」と言うので,$X$ と $Y$ の共分散のことを $\mathrm{Cov}(X,Y)$ と書くことがあります。

また,共分散を $\sigma_{XY}$ と書くこともあります。

共分散は,
「$X$ の偏差 × $Y$ の偏差」の平均
で定義されましたが,これを期待値の記号を使って表すと,
$E[(X-\mu_X)(Y-\mu_Y)]$
となります。ただし $\mu_X$ は $X$ の平均,$\mu_Y$ は $Y$ の平均です。

共分散の問題点

共分散は「スケール変換に対して不変でない」という問題点があります。

例えば,上記のテストの例で国語も数学も $10$ 点満点で評価した場合を考えてみます。
$5$ 人の点数は,$(5,5),(5,7),(8,6),(7,9),(9,10)$ となります。
このデータに対して共分散を求めると $\mathrm{Cov}(X,Y)=1.88$ となります。

本質的に同じデータに対しての共分散が満点の決め方によって $188$ になったり $1.88$ になったり変動してしまいます。そのため共分散の数値だけを見て関係性を判断することは難しいのです。

その問題点を解消するために実際には共分散を規格化した相関係数というものが用いられます。→相関係数の数学的性質とその証明

共分散の簡単な求め方

実は,共分散は「$X$ の偏差 × $Y$ の偏差」の平均という定義を使うよりも,少しだけ簡単な求め方があります!

共分散を簡単に求める公式:
$\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y$

実際にテストの例:
$(50,50),(50,70),(80,60),(70,90),(90,100)$
で共分散を計算してみます。

まず,国語の平均点 $\mu_X$ は,
$\mu_X=\dfrac{1}{5}(50+50+80+70+90)=68$

同様に数学の平均点 $\mu_Y$ は,
$\mu_Y=\dfrac{1}{5}(50+70+60+90+100)=74$

次に,かけ算の平均 $E[XY]$ は,
$E[XY]\\=\dfrac{1}{5}(50\cdot 50+50\cdot 70+80\cdot 60+70\cdot 90+90\cdot 100)\\=5220$

以上より,共分散を簡単に求める公式を使うと,
$\mathrm{Cov}(X,Y)=5220-68\cdot 74=188$
となり先ほどの答えと一致しました!

こちらの方法の方が計算量がやや少なくて楽です。実際の試験では計算ミスをしやすいので,2つの方法でそれぞれ共分散を求めて一致することを確認しましょう。この公式は強力な検算テクニックになるのです!

では,共分散を簡単に求める公式:
$\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y$
を証明しておきます。

証明

まず期待値の中身を展開すると,
$\mathrm{Cov}(X,Y)=E[XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y]$
となる。次に和の期待値は期待値の和なので
$\mathrm{Cov}(X,Y)\\
=E[XY]-E[X\mu_Y]-E[Y\mu_X]+E[\mu_X\mu_Y]$
定数倍は期待値の外側に出せるので,右辺第二項は
$-E[X]\mu_Y=-\mu_X\mu_Y$ となる。
右辺第三項も$-\mu_X\mu_Y$ となる。
定数の期待値は定数そのものなので右辺第四項は $\mu_X\mu_Y$ となる。
以上から $\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y$

共分散と分散の関係

共分散の定義式で形式的に $X=Y$ としてみると,
$\mathrm{Cov}(X,X)=E[(X-\mu_X)^2]$ となり $X$ の分散の定義式と一致します。
このような意味で,「共分散は分散の一般化」とみなすことができます。

さらに,共分散を簡単に求める公式:
$\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y$
で $X=Y$ としてみると,
$\mathrm{Var}[X]=E[X^2]-\mu_X^2$
という式が得られます。

これは,分散の意味と二通りの計算方法で紹介した有名な公式です。

大学の統計学では分散共分散行列という行列が活躍します。→分散共分散行列の定義と性質

Tag: 期待値と分散に関する公式一覧
Tag: 数学1の教科書に載っている公式の解説一覧