全変動,回帰変動,残差変動の意味と関係

最小二乗法による直線フィッティング(単回帰分析)において

全変動=回帰変動+残差変動

全変動・回帰変動・残差変動の定義,意味および上記の定理の証明(かなり美しい!)を解説します。

問題設定

単回帰

  • (x1,y1),,(xn,yn)(x_1,y_1),\cdots ,(x_n,y_n) というように,2組のデータの対が nn 個与えられたときに, yif(xi)y_i\fallingdotseq f(x_i) となる単純な関数 f(x)f(x) を求めたいという状況を考えます。
  • f(x)f(x) を一次関数に制限して最小二乗法により適切な直線の式を求める場合が非常に多いです。
  • 以下,μX,μY\mu_X,\mu_Y はデータの平均,σX2,σY2\sigma_X^2,\sigma_Y^2 はデータの分散,Cov(X,Y)\mathrm{Cov}(X,Y) は共分散を表します。

全変動,回帰変動,残差変動

・全変動(総変動):i=1n(yiμY)2\displaystyle\sum_{i=1}^n(y_i-\mu_Y)^2

データがそもそもどれくらい散らばっているかを表す指標です。分散の定義により,全変動は yiy_i たちの分散 σY2\sigma_Y^2nn 倍したものと一致します。

・回帰変動: i=1n(f(xi)μY)2\displaystyle\sum_{i=1}^n(f(x_i)-\mu_Y)^2

xix_i たちを回帰モデルに当てはめたときにその値がどれくらい散らばっているかを表します。

・残差変動:i=1n(yif(xi))2\displaystyle\sum_{i=1}^n(y_i-f(x_i))^2

回帰モデルと実測値とのズレの二乗和です。二乗誤差とも言います。残差変動が大きいほどズレが大きい残念なモデルです。

直線回帰の場合

「全変動=回帰変動+残差変動」の証明の準備です。

最小二乗法を用いた直線回帰モデルの場合,f(x)=Ax+Bf(x)=Ax+B となります。

ただし, A=Cov(X,Y)σX2,B=μYAμXA=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2},\:B=\mu_Y-A\mu_X

なぜこの式が最適な一次関数なのかについては最小二乗法(直線)の簡単な説明をご覧ください。

定理の証明

最小二乗法を用いた直線回帰の場合に「全変動=回帰変動+残差変動」を証明します。

証明

ai=f(xi)μY,bi=yif(xi)a_i=f(x_i)-\mu_Y,\:b_i=y_i-f(x_i) とおく。

全変動= i=1n(ai+bi)2\displaystyle\sum_{i=1}^n(a_i+b_i)^2

回帰変動= i=1nai2\displaystyle\sum_{i=1}^na_i^2

残差変動= i=1nbi2\displaystyle\sum_{i=1}^nb_i^2

なので,全変動ー回帰変動ー残差変動= 2i=1naibi2\displaystyle\sum_{i=1}^na_ib_i00 であることを証明すればよい。

実際,A=Cov(X,Y)σX2,B=μYAμXA=\dfrac{\mathrm{Cov}(X,Y)}{\sigma_X^2},\:B=\mu_Y-A\mu_X に注意すると,

aibi=(f(xi)μY)(yif(xi))=(Axi+BμY)(yiAxiB)=(AxiAμX)(yiAxiμY+AμX)=A(xiμX)(yiμY)A2(xiμX)(xiμX)a_ib_i=(f(x_i)-\mu_Y)(y_i-f(x_i))\\ =(Ax_i+B-\mu_Y)(y_i-Ax_i-B)\\ =(Ax_i-A\mu_X)(y_i-Ax_i-\mu_Y+A\mu_X)\\ =A(x_i-\mu_X)(y_i-\mu_Y)-A^2(x_i-\mu_X)(x_i-\mu_X)

よって,これを i=1i=1 から nn まで足し合わせると(分散,共分散,AA の定義を使うことで)

i=1naibi=nACov(X,Y)nA2σX2=nA(cov(X,Y)AσX2)=0\displaystyle\sum_{i=1}^na_ib_i=nA\mathrm{Cov}(X,Y)-nA^2\sigma_X^2\\ =nA(\mathrm{cov}(X,Y)-A\sigma_X^2)=0

さらに,この定理を使うことで「決定係数=相関係数の二乗」を比較的簡単に導出できます。→決定係数の定義と相関係数との関係

最近,数理統計学もなかなか綺麗な世界だと感じています。

Tag:数学的モデリングまとめ(回帰分析)