2015/02/08

全変動,回帰変動,残差変動の意味と関係


最小二乗法による直線フィッティング(単回帰分析)において
全変動=回帰変動+残差変動

全変動,回帰変動,残差変動の定義,意味および上記の定理の証明(かなり美しい!)を解説します。

問題設定

単回帰
  • $(x_1,y_1),\cdots ,(x_n,y_n)$ というように,2組のデータの対が $n$ 個与えられたときに, $y_i\simeq f(x_i)$ となる単純な関数 $f(x)$ を求めたいという状況を考えます。
  • $f(x)$ を一次関数に制限して最小二乗法により適切な直線の式を求める場合が非常に多いです。
  • 以下,$\mu_X,\mu_Y$ はデータの平均,$\sigma_X^2,\sigma_Y^2$ はデータの分散,$\mathrm{Cov}(X,Y)$ は共分散を表します。

全変動,回帰変動,残差変動

・全変動(総変動):$\displaystyle\sum_{i=1}^n(y_i-\mu_Y)^2$
データがそもそもどれくらい散らばっているかを表す指標です。分散の定義により,全変動は $y_i$ たちの分散 $\sigma_Y^2$ を $n$ 倍したものと一致します。

・回帰変動:$\displaystyle\sum_{i=1}^n(f(x_i)-\mu_Y)^2$
$x_i$ たちを回帰モデルに当てはめたときにその値がどれくらい散らばっているかを表します。

・残差変動:$\displaystyle\sum_{i=1}^n(y_i-f(x_i))^2$
回帰モデルと実測値とのズレの二乗和です。残差変動が大きいほどモデルからのズレが大きい残念なモデルということになります。

直線回帰の場合

「全変動=回帰変動+残差変動」の証明の準備です。

最小二乗法を用いた直線回帰モデルの場合,$f(x)=Ax+B$ となります。
ただし, $A=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2},\:B=\mu_Y-A\mu_X$

なぜこの式が最適な一次関数なのかについては最小二乗法(直線)の簡単な説明をご覧ください。

定理の証明

最小二乗法を用いた直線回帰の場合に「全変動=回帰変動+残差変動」を証明します。

証明

$a_i=f(x_i)-\mu_Y,\:b_i=y_i-f(x_i)$ とおく。
全変動= $\displaystyle\sum_{i=1}^n(a_i+b_i)^2$
回帰変動= $\displaystyle\sum_{i=1}^na_i^2$
残差変動= $\displaystyle\sum_{i=1}^nb_i^2$
なので,全変動ー回帰変動ー残差変動= $2\displaystyle\sum_{i=1}^na_ib_i$ が $0$ であることを証明すればよい。

実際,$A=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2},\:B=\mu_Y-A\mu_X$ に注意すると,
$a_ib_i=(f(x_i)-\mu_Y)(y_i-f(x_i))\\
=(Ax_i+B-\mu_Y)(y_i-Ax_i-B)\\
=(Ax_i-A\mu_X)(y_i-Ax_i-\mu_Y+A\mu_X)\\
=A(x_i-\mu_X)(y_i-\mu_Y)-A^2(x_i-\mu_X)(x_i-\mu_X)$

よって,これを $i=1$ から $n$ まで足し合わせると(分散,共分散,$A$ の定義を使うことで)
$\displaystyle\sum_{i=1}^na_ib_i=nA\mathrm{Cov}(X,Y)-nA^2\sigma_X^2\\
=nA(\mathrm{cov}(X,Y)-A\sigma_X^2)=0$

さらに,この定理を使うことで「決定係数=相関係数の二乗」を比較的簡単に導出することができます。→決定係数の定義と相関係数との関係

最近,数理統計学もなかなか綺麗な世界だなあと感じています。

Tag: 数学的モデリングまとめ(回帰分析)