2014/09/17

相関係数の数学的性質とその証明

分野: データの分析,確率  レベル: 入試対策

相関係数は共分散を規格化したもの

相関係数の定義と意味

二組の対応するデータの間の関係を表す数値に共分散がありますが,共分散にはスケール変換に対して不変でないという問題点がありました。→共分散の意味と簡単な求め方

その問題点を改善すべく,共分散を規格化した相関係数 $\rho$ が考えられ,広く用いられています。

$\rho=\dfrac{\mathrm{Cov(X,Y)}}{\sigma_X\sigma_Y}=\dfrac{\sum_{i=1}^n(x_i-\mu_X)(y_i-\mu_Y)}{\sqrt{\sum_{i=1}^n(x_i-\mu_X)^2}\sqrt{\sum_{i=1}^n(y_i-\mu_Y)^2}}$

このように定義された相関係数の数学的性質として,

性質1:スケール変換に対して不変
性質2:$-1\leq \rho\leq 1$

であることが挙げられます。この記事ではこれらの性質を証明します。

ちなみに,相関係数は共分散をもとに定義しているので,相関係数も $X$ と $Y$ の関係を表しています:
相関係数が大きい(1に近い)→ $X$ が大きいとき $Y$ も大きい傾向がある
相関係数が0に近い→ $X$ と $Y$ にあまり関係はない
相関係数が小さい(-1に近い)→ $X$ が大きいとき $Y$ は小さい傾向がある

性質1:相関係数は単位によらない

相関係数がスケール変換に対して不変であることを証明します。

証明

$Y$ についても同様なので,$X$ についての単位の取り方を変えることで $x_i$ たちが全て $k$ 倍されるような場合を考える。
(例えば $100$ 点満点のテストの点数を $10$ 点満点で測りなおす場合は $k=0.1$)

このとき $x_i$ たちの平均値 $\mu_X$ も $k$ 倍される
よって,相関係数は
$\rho=\dfrac{\sum_{i=1}^n(kx_i-k\mu_X)(y_i-\mu_Y)}{\sqrt{\sum_{i=1}^n(kx_i-k\mu_X)^2}\sqrt{\sum_{i=1}^n(y_i-\mu_Y)^2}}$
となり分母も分子も $k$ 倍される。
つまり,相関係数は単位の取り方によらない。

相関係数を考えることで,「単位の取り方によって値が変わってしまう」という共分散の問題点が解消されました!つまり,相関係数の数値が $X$ と $Y$ の関係性を判断する指標になるのです。

次は相関係数の上限値,下限値についての性質です。

性質2:相関係数の絶対値が1以下であることの証明

シュワルツの不等式を使えば一発です。

証明

コーシーシュワルツの不等式より,
${\displaystyle(\sum_{i=1}^n a_i^2)}{\displaystyle(\sum_{i=1}^n b_i^2)}\geq{\displaystyle(\sum_{i=1}^n a_ib_i)^2}\\$
であり,$a_i=x_i-\mu_X, b_i=y_i-\mu_Y$ を代入すると,
$\sigma_X^2\sigma_Y^2\geq \mathrm{Cov}(X,Y)^2$
よって,相関係数の定義より,
$\rho^2\leq 1$
となり相関係数の絶対値が $1$ 以下であることが証明できた。

ちなみにシュワルツの不等式の等号成立条件を考えると,
全ての $i$ に対して $x_i-\mu_X:y_i-\mu_Y$ が一定なのでこの比を $1:k$ とおくと,
$y_i=k(x_i-\mu_X)+\mu_Y$ となり,$(x_i, y_i)$ が全て同一直線上にあることが分かります!

性質3:相関係数の絶対値が $1$
⇔$(x_i,y_i)$ が全て同一直線上

共分散は偏差ベクトルの内積,標準偏差は偏差ベクトルの長さと見ると美しいです

Tag: 数学1の教科書に載っている公式の解説一覧

分野: データの分析,確率  レベル: 入試対策