最終更新:2017/01/23

偏相関係数の意味と式の導出


「$X$ の影響を除いた $Y$」と「$X$ の影響を除いた $Z$」の相関係数 $\rho_{YZ,X}$ は,
$\rho_{YZ,X}=\dfrac{\rho_{YZ}-\rho_{XY}\rho_{XZ}}{\sqrt{1-\rho^2_{XY}}\sqrt{1-\rho^2_{XZ}}}$

ただし,$\rho_{XY}$ は $X$ と $Y$ の(普通の)相関係数です($\rho_{XZ}, \rho_{YZ}$ も同様)。

他の確率変数の影響を除いた相関を偏相関と言います。この記事では偏相関係数について説明します。

$X$ の影響を除いた $Y$ とは

$X$ と $Y$ のペアのデータ $(x_i,y_i)$ がたくさん与えられた状況を考えます。このとき,最小二乗法を使うと $X$ と $Y$ の関係を表すもっともらしい直線(図の点線)を求めることができます。

偏相関係数の説明の準備

このとき,各データ $(x_i,y_i)$ について,残差(図の赤い部分,直線より下のときはマイナスになる)を「$X$ の影響を除いた $Y$」と呼ぶことにします。

あくまでイメージですが,
「$A$ と $B$ の睡眠時間は $A$ の方が長い。しかし,高校生の方が幼稚園児より,一般的に睡眠時間は短いはず。年齢の影響を除いて両者を比較するため,年齢から予想される値を基準に考えよう」という気持ちです。

偏相関係数の式の導出

証明に興味がない人はこの節を読み飛ばしてOKです!

回帰直線 $Y=aX+b$ の傾きと切片が,
$a=\dfrac{\mathrm{Cov(X,Y)}}{\sigma_X^2}$
$b=\mu_Y-a\mu_X$
で与えられることを使います。
→最小二乗法(直線)の簡単な説明

導出

$X$ に対する $Y$ の回帰直線は,
$Y=aX+b\\
=\dfrac{\mathrm{Cov(X,Y)}}{\sigma_X^2}(X-\mu_X)+\mu_Y$

よって「$X$ の影響を除いた $Y$」は
$Y’=(Y-\mu_Y)-(X-\mu_X)\dfrac{\mathrm{Cov(X,Y)}}{\sigma_X^2}$

同様に「$X$ の影響を除いた $Z$」は
$Z’=(Z-\mu_Z)-(X-\mu_X)\dfrac{\mathrm{Cov(X,Z)}}{\sigma_X^2}$

求めたい偏相関係数は,$Y’$ と $Z’$ の相関係数:
$\rho_{YZ,X}=\dfrac{\mathrm{Cov}(Y’,Z’)}{\sigma_{Y’}\sigma_{Z’}}\\
=\dfrac{E[Y’Z’]-E[Y’]E[Z’]}{\sqrt{E[Y’^2]-E[Y’]^2}\sqrt{E[Z^2′]-E[Z’]^2}}$
である。

そこで,さきほどの2つの式から $Y’$ と $Z’$ のモーメントを計算すると,
$E[Y’]=E[Z’]=0$

$E[Y’Z’]=\mathrm{Cov}(Y,Z)-\dfrac{\mathrm{Cov}(X,Y)\mathrm{Cov}(X,Z)}{\sigma_X^2}\\
=(\rho_{YZ}-\rho_{XY}\rho_{XZ})\sigma_Y\sigma_Z$

$E[Y’^2]=\sigma_Y^2-\dfrac{\mathrm{Cov}(X,Y)^2}{\sigma_X^2}=\sigma_Y^2(1-\rho_{XY}^2)$
$E[Z’^2]=\sigma_Z^2(1-\rho_{XZ}^2)$

となる。これらを $\rho_{YZ,X}$ の式に代入して整理すると
$\rho_{YZ,X}=\dfrac{\rho_{YZ}-\rho_{XY}\rho_{XZ}}{\sqrt{1-\rho^2_{XY}}\sqrt{1-\rho^2_{XZ}}}$
となる。

細かい計算は省略しています。気持ちいいのでやってみてください!

偏相関係数の使用例

小学生から高校生までの多くの人に,同じテストを受けてもらった状況を考えます。
$X$:年齢,$Y$:睡眠時間,$Z$:テストの点数
とします。

$\rho_{XY}=-0.7$:小学生の方がよく寝る
$\rho_{XZ}=0.8$:高校生の方がテストの点数が高い
$\rho_{YZ}=-0.35$:睡眠時間が短い方がテストの点数が高い??←疑似相関

偏相関係数を使った説明

$\rho_{YZ,X}$ を計算すると,約 $0.49$ になります。年齢の影響を除いて考えると,睡眠時間が長い方がテストの点数が高いと言えます。

最後の例,数値は適当です。「点数上げたいならいっぱい寝よう」は個人的に伝えたいメッセージです。