2015/02/17

決定係数の定義と相関係数との関係


回帰分析の重要な概念「決定係数」について。決定係数の定義,相関係数の二乗と等しくなる場合とその証明について解説します。アクチュアリー試験でも頻出です。

決定係数の定義

決定係数は回帰モデルによって実データをどれくらい説明できているか(回帰分析の精度)を表す指標です。

決定係数 $R^2$ の定義はいくつかあるようですが,以下の式で定義するのが最も一般的です:

$R^2=1-\dfrac{\sum_{i=1}^n(y_i-f(x_i))^2}{\sum_{i=1}^n(y_i-\mu_Y)^2}$

ただし,$(x_i,y_i)$ たちがデータ,$\mu_Y$ は $y_i$ の平均,$f(x)$ は回帰モデルを表します。

第二項の分母は全変動と呼ばれ,データのそもそものばらつき具合を表します。分子は残差変動と呼ばれ,回帰モデルと実測値とのズレを表します。

決定係数が $1$ に近い
$\iff$ 残差変動が(全変動に比べて)小さい
$\iff$ よい回帰モデルである
とみなすことができます。

マイナスになるか

決定係数のことを $R^2$ と書いていますが,これは必ずしも何かの二乗になるという意味ではありません。

あまりにひどいモデルを考えると決定係数をマイナスにすることもできます。

しかし,単純に $f(x_i)=\mu_Y$ という定数関数(テキトーなモデル)を考えると決定係数は $R^2=0$ となります。つまり,決定係数がマイナスであるようなモデルはこのテキトーな定数関数にも負けるモデルということになり,考える意味はなさそうです。

決定係数=相関係数の二乗

定理:最小二乗法による直線フィッティングの場合,相関係数の二乗と決定係数は一致する。

つまり「もともとのデータの相関係数の絶対値が大きいほど最小二乗法による直線フィッティングの精度がよくなる」と言えます。

相関係数と決定係数は全く別の文脈で(それぞれが意味を持つように)定義された量なので,その両者の間に美しい関係があるというのは驚きです!

また,定理により(最小二乗法による直線フィッティングの場合は)決定係数が $0$ 以上 $1$ 以下の値を取ることも分かります。

相関係数については相関係数の数学的性質とその証明参照。

定理の証明

定理の証明には以下の前提知識が必要となります。

・最小二乗法による最適な直線 $f(x)=Ax+B$ において
$\mu_Y=A\mu_X+B$,$A=\dfrac{\mathrm{Cox}(X,Y)}{\sigma_X^2}$ が成立する。
→最小二乗法(直線)の簡単な説明

・「全変動ー残差変動=回帰変動」
→全変動,回帰変動,残差変動の意味と関係

証明

決定係数を変形していく。全変動ー残差変動=回帰変動なので,
$R^2=\dfrac{\sum_{i=1}^n(f(x_i)-\mu_Y)^2}{\sum_{i=1}^n(y_i-\mu_Y)^2}$
である。あとは比較的単純な式変形だけでできる。
$R^2=\dfrac{1}{n\sigma_Y^2}\displaystyle\sum_{i=1}^n\{(Ax_i+B)-(A\mu_X+B)\}^2\\
=\dfrac{A^2}{n\sigma_Y^2}\displaystyle\sum_{i=1}^n(x_i-\mu_X)^2\\
=\dfrac{\mathrm{Cov}(X,Y)^2}{n\sigma_Y^2\sigma_X^4}\cdot n\sigma_X^2\\
=\dfrac{\mathrm{Cov}(X,Y)^2}{\sigma_X^2\sigma_Y^2}$
これは相関係数の二乗に等しい!

決定係数を変形していって相関係数に一致したときの感動を多くの人に味わって欲しいです。

Tag: 数学的モデリングまとめ(回帰分析)