最終更新:2017/01/24

相関係数の数学的性質とその証明

分野: データの分析,確率  レベル: 入試対策

二組の対応するデータ $(X,Y)$ に対して,相関係数 $\rho$ を以下で定義する:
$\rho=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X\sigma_Y}$


ただし,$\mathrm{Cov}(X,Y)$ は共分散,$\sigma_X$ と $\sigma_Y$ は標準偏差です。

相関係数の性質と意味

性質1:$-1\leq \rho\leq 1$

相関係数は $X$ と $Y$ の関係を表す量で,$-1$ 以上 $1$ 以下です。共分散と同様に,

相関係数が大きい(1に近い)→ $X$ が大きいとき $Y$ も大きい傾向がある
相関係数が0に近い→ $X$ と $Y$ にあまり関係はない
相関係数が小さい(-1に近い)→ $X$ が大きいとき $Y$ は小さい傾向がある

と言うことができます。

性質2:相関係数はスケール変換に対して不変

スケール変換とは(この記事では)「どちらかのデータを全て一定倍する操作」です。例えば,メートルで表された長さのデータをセンチメートルになおすときには,数値を全て $100$ 倍しますね。

なお,相関係数と同様に,共分散も二組の対応するデータの間の関係を表す数値です。しかし,共分散はスケール変換に対して不変でないという問題点がありました。→共分散の意味と簡単な求め方
「相関係数は共分散を規格化して,この問題点を解決したもの」と言うことができます。

以下では性質1と2の証明をします。

性質1:相関係数の絶対値が1以下であることの証明

シュワルツの不等式を使えば一発です。

証明

コーシーシュワルツの不等式より,
${\displaystyle(\sum_{i=1}^n a_i^2)}{\displaystyle(\sum_{i=1}^n b_i^2)}\geq{\displaystyle(\sum_{i=1}^n a_ib_i)^2}\\$
であり,$a_i=x_i-\mu_X, b_i=y_i-\mu_Y$ を代入すると,
$\sigma_X^2\sigma_Y^2\geq \mathrm{Cov}(X,Y)^2$
よって,相関係数の定義より,
$\rho^2\leq 1$
となり相関係数の絶対値が $1$ 以下であることが証明できた。

ちなみにシュワルツの不等式の等号成立条件を考えると,
「全ての $i$ に対して $x_i-\mu_X:y_i-\mu_Y$ が一定」
なのでこの比を $1:k$ とおくと,
$y_i=k(x_i-\mu_X)+\mu_Y$ となり,$(x_i, y_i)$ が全て同一直線上にあることが分かります!

性質3:相関係数の絶対値が $1$
⇔$(x_i,y_i)$ が全て同一直線上

性質2:相関係数は単位によらない

相関係数がスケール変換に対して不変であることを証明します。

証明

$Y$ についても同様なので,$X$ についての単位の取り方を変えることで $x_i$ たちが全て $k$ 倍されるような場合を考える。
(例えば $100$ 点満点のテストの点数を $10$ 点満点で測りなおす場合は $k=0.1$)

このとき $x_i$ たちの平均値 $\mu_X$ も $k$ 倍される
よって,相関係数は
$\rho=\dfrac{\sum_{i=1}^n(kx_i-k\mu_X)(y_i-\mu_Y)}{\sqrt{\sum_{i=1}^n(kx_i-k\mu_X)^2}\sqrt{\sum_{i=1}^n(y_i-\mu_Y)^2}}$
となり分母も分子も $k$ 倍される。
つまり,相関係数は単位の取り方によらない。

相関係数を考えることで,「単位の取り方によって値が変わってしまう」という共分散の問題点が解消されました!つまり,相関係数の数値が $X$ と $Y$ の関係性を判断する指標になるのです。

共分散は偏差ベクトルの内積,標準偏差は偏差ベクトルの長さと見ると美しいです。

Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 入試対策