分散共分散行列の定義と性質

分散共分散行列とは,分散(散らばり具合を表す指標)の概念を多次元確率変数に拡張して行列としたもの。

分散共分散行列の定義,具体例,独立な場合に対角行列になること,半正定値になること。

確率変数が二つの場合の定義

確率変数 X1,X2X_1,X_2 に対して,分散共分散行列(単に共分散行列とも言う)Σ\Sigma を以下のように定めます:

Σ=(σ12σ12σ12σ22)\Sigma=\begin{pmatrix}\sigma_{1}^2&\sigma_{12}\\\sigma_{12}&\sigma_{2}^2\end{pmatrix}

ただし,σ12\sigma_{1}^2X1X_1 の分散,σ22\sigma_{2}^2X2X_2 の分散,σ12\sigma_{12}X1X_1X2X_2 の共分散です(この記事では Cov(X1,X2)\mathrm{Cov}(X_1,X_2) という記号は使いません)。

対角成分には分散が並び,非対角成分には共分散が並ぶため分散共分散行列と呼ばれます。

確率変数が nn 個の場合も全く同様に定義されます。

分散共分散行列:

nn 個の確率変数 X1,X2,,XnX_1,X_2,\cdots , X_n に対して,

iiii 成分が σi2\sigma_{i}^2

ijij 成分(iji\neq j )が σij\sigma_{ij}

であるような n×nn\times n 行列 Σ\Sigma を分散共分散行列と言う。

データの散らばり具合や相関という情報を集約したものです!

同様に,nn 次元のデータに対しても標本分散共分散行列が定義されます(対角成分には標本分散,非対角成分には標本共分散が並ぶ)。

具体例

例題

データとして,(xi,yi)=(40,80),(80,90),(90,100)(x_i,y_i)=(40,80),(80,90),(90,100) が与えられたとき,このデータの(標本)分散共分散行列を求めよ。

例えば xix_iii 番目の人の国語の点数,yiy_i が数学の点数と思って下さい。

解答

E[X]=70,E[Y]=90E[X]=70,E[Y]=90

であり,偏差ベクトル(平均からの差)は (30,10),(10,0),(20,10)(-30,-10),(10,0),(20,10)

よって

σX2=13{(30)2+102+202}=14003\sigma_X^2=\dfrac{1}{3}\{(-30)^2+10^2+20^2\}=\dfrac{1400}{3} σY2=13{(10)2+102}=2003\sigma_Y^2=\dfrac{1}{3}\{(-10)^2+10^2\}=\dfrac{200}{3} σXY=13(300+200)=5003\sigma_{XY}=\dfrac{1}{3}(300+200)=\dfrac{500}{3}

分散共分散行列は,Σ=(14003500350032003)\Sigma=\begin{pmatrix}\dfrac{1400}{3}&\dfrac{500}{3}\\ \dfrac{500}{3}&\dfrac{200}{3}\end{pmatrix}

注:共分散が負になることがあるので,分散共分散行列の要素(非対角成分)が負になることもあります。

別の表現

分散と共分散の定義を思い出してみると, 分散共分散行列の第 ijij 成分は E[(Xiμi)(Xjμj)]E[(X_i-\mu_{i})(X_j-\mu_{j})] と書けることが分かります。

(ただし μi\mu_{i}XiX_i の平均)

この表現を使うことで,対角成分と非対角成分を場合分けせずに統一的に扱うことができます。

nn 個の確率変数 X1,X2,,XnX_1,X_2,\cdots , X_n に対して,

ijij 成分が E[(Xiμi)(Xjμj)]E[(X_i-\mu_{i})(X_j-\mu_{j})] であるような n×nn\times n 行列 Σ\Sigma を分散共分散行列と言う。

独立な場合

確率変数たちが互いに独立な場合,共分散は全て 00 になります。(独立なら無相関)→独立と無相関の意味と違いについて

つまり,分散共分散行列の非対角成分は 00 になるので,この場合には分散共分散行列は対角行列になります。対角成分には分散(=固有値)が並びます。

半正定値であること

分散共分散行列は半正定値であるという重要な性質があります。

以下の証明は 22 変数の場合です。一般の nn 次元の場合も全く同様に証明できます。

証明

任意の 22 次元縦ベクトル yundefined=(y1,y2)\overrightarrow{y}=(y_1,y_2)^{\top} に対して yundefinedΣyundefined0\overrightarrow{y}^{\top}\Sigma\overrightarrow{y} \geq 0

つまり σ12y12+2σ12y1y2+σ22y220\sigma_{1}^2y_1^2+2\sigma_{12}y_1y_2+\sigma_{2}^2y_2^2\geq 0

を示すのが目標。

ここで,新たな確率変数 X=y1X1+y2X2X=y_1X_1+y_2X_2 というものを考えてみる。 XX の分散が非負であること,分散の公式(注),および共分散の線形性より

0Var[y1X1+y2X2]=σ12y12+2σ12y1y2+σ22y220\leq \mathrm{Var}[y_1X_1+y_2X_2]=\sigma_{1}^2y_1^2+2\sigma_{12}y_1y_2+\sigma_{2}^2y_2^2

となるので目標の式が証明できた。

注: Var[aX]=a2Var[X]\mathrm{Var}[aX]=a^2\mathrm{Var}[X]

Var[X1+X2]=Var[X1]+Var[X2]+2σX1X2\mathrm{Var}[X_1+X_2]=\mathrm{Var}[X_1]+\mathrm{Var}[X_2]+2\sigma_{X_1X_2} →期待値と分散に関する公式一覧

注:一次元の場合の分散は非負ですが 00 になることもあります。同様に,分散共分散行列も半正定値ですが正定値とは限りません。

補足

なお,nn 次元縦ベクトルとして確率変数を並べたもの: X=(X1,X2,,Xn)X=(X_1,X_2,\cdots, X_n)^{\top}

期待値を並べたもの: μ=(μ1,μ2,,μn)\mu=(\mu_{1},\mu_{2},\cdots, \mu_{n})^{\top}

とすれば Σ=E[(Xμ)(Xμ)]=E[XX]μμ\Sigma=E[(X-\mu)(X-\mu)^{\top}]=E[XX^{\top}]-\mu\mu^{\top} となります。

真ん中の式より分散共分散行列が半正定値であることが分かります。最右辺は実際の計算に役立ちます。

「ぶんさんきょうぶんさんぎょうれつ」って早口で三回言えますか?