2014/09/16

共分散の意味と簡単な求め方

分野: データの分析,確率  レベル: 基本公式

共分散について覚えておくべきことを整理しました。

共分散 $\mathrm{Cov}(X,Y)$ は二組の対応するデータの間の関係を表す数値である。
データを$(x_1,\:y_1),(x_2,\:y_2),\cdots,(x_n,\:y_n)$ とおくとき,
$\mathrm{Cov}(X,Y)=E[(X-\mu_X)(Y-\mu_Y)]$

ただし $\mu_X$ は $X$ の平均,$\mu_Y$ は $Y$ の平均です。

$\mathrm{Cov}$ という記号の由来は共分散を表す英語「Covariance」です。
共分散を $\mathrm{Cov}(X,Y)$ ではなく $\sigma_{XY}$ と書く流儀もあります。

共分散の求め方の例

共分散の意味はすぐには分かりにくいのでまずは簡単な具体例で確認してみます。

データとしては $X:$国語の点数,$Y$:数学の点数。 $n=5$ とします。
各々の点数は,$(50,50),(50,70),(80,60),(70,90),(90,100)$ とします。

まず,国語の平均点 $\mu_X$ は,
$\mu_X=\dfrac{1}{5}(50+50+80+70+90)=68$

同様に数学の平均点 $\mu_Y$ は,
$\mu_Y=\dfrac{1}{5}(50+70+60+90+100)=74$

5人についてそれぞれ偏差の積$(X-\mu_X)(Y-\mu_Y)$ は,
$(50-68)(50-74)=432$
$(50-68)(70-74)=72$
$(80-68)(60-74)=-168$
$(70-68)(90-74)=32$
$(90-68)(100-74)=572$

よって共分散 $\mathrm{Cov}(X,Y)$ は,
$\mathrm{Cov}(X,Y)=\dfrac{1}{5}(432+72-168+32+572)=188$

共分散の意味

共分散は偏差の積の期待値なので
共分散が大きい(正)→ $X$ が大きいとき $Y$ も大きい傾向がある
共分散が $0$ に近い→ $X$ と $Y$ にあまり関係はない
共分散が小さい(負)→ $X$ が大きいとき $Y$ は小さい傾向がある

例えば,上記の例だと国語の点数と数学の点数の共分散は $0$ よりだいぶ大きいので「国語の点が高い人は数学の点も高い傾向にある」と言うことができます。直感的に納得できる結果ですね。

共分散の定義式で形式的に $X=Y$ としてみると,
$\mathrm{Cov}(X,X)=E[(X-\mu_X)^2]$ となり $X$ の分散の定義式と一致します。→偏差値の計算方法と様々な性質
このような意味で,「共分散は分散の一般化」とみなすことができます。

共分散の問題点

共分散は「スケール変換に対して不変でない」という問題点があります。

例えば,上記のテストの例で国語も数学も $10$ 点満点で評価した場合を考えてみます。
$5$ 人の点数は,$(5,5),(5,7),(8,6),(7,9),(9,10)$ となります。
このデータに対して共分散を求めると $\mathrm{Cov}(X,Y)=1.88$ となります。

本質的に同じデータに対しての共分散が満点の決め方によって $188$ になったり $1.88$ になったり変動してしまいます。そのため共分散の数値だけを見て関係性を判断することは難しいのです。

その問題点を解消するために実際には共分散を規格化した相関係数というものが用いられます。→相関係数の数学的性質とその証明

共分散の簡単な求め方

実は,共分散は定義式を使うよりも少しだけ簡単な求め方があります:

共分散を簡単に求める公式:
$\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y$

実際にテストの例でやってみます。
$E[XY]\\=\dfrac{1}{5}(50\cdot 50+50\cdot 70+80\cdot 60+70\cdot 90+90\cdot 100)\\=5220$
よって,$\mathrm{Cov}(X,Y)=5220-68\cdot 74=188$
となり先ほどの答えと一致しました!

こちらの方法の方が計算量がやや少なくて楽です。実際の試験では計算ミスをしやすいので2つの方法でそれぞれ共分散を求めて一致することを確認しましょう。この公式は強力な検算テクニックになるのです!

では,最後にこの公式を証明しておきます。

証明

まず期待値の中身を展開すると,
$\mathrm{Cov}(X,Y)=E[XY-X\mu_Y-Y\mu_X+\mu_X\mu_Y]$
となる。次に和の期待値は期待値の和なので
$\mathrm{Cov}(X,Y)=E[XY]-E[X\mu_Y]-E[Y\mu_X]+E[\mu_X\mu_Y]$
定数倍は期待値の外側に出せるので右辺第二項は$-E[X]\mu_Y=-\mu_X\mu_Y$ となる。
右辺第三項も$-\mu_X\mu_Y$ となる。
定数の期待値は定数そのものなので右辺第四項は $\mu_X\mu_Y$ となる。
以上から $\mathrm{Cov}(X,Y)=E[XY]-\mu_X\mu_Y$

大学の統計学では分散共分散行列という行列が活躍します。→分散共分散行列の定義と性質

Tag: 期待値と分散に関する公式一覧
Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 基本公式