条件付き期待値,分散の意味と有名公式

条件付き期待値・分散の初等的な定義を解説し,条件付き期待値に関する有名公式を二つ紹介します。

なお,条件付き期待値を理解するためには,前提知識として条件付き確率が必要です。→条件付き確率の意味といろいろな例題

逆に条件付き確率をきちんと理解していれば条件付き期待値は簡単です。

条件付き期待値の定義,意味

確率変数 YY の値が yy であるという条件のもとでの XX の期待値を E[XY=y]E[X\mid Y=y] と書き,条件付き期待値と言います。Y=yY=y となるグループに限定したときの XX の平均」とも言えます。

条件付き期待値の定義

式で書くと(離散型確率変数の場合),

E[XY=y]=xxP(X=x,Y=y)P(Y=y)E[X\mid Y=y]\\=\displaystyle\sum_{x}x\dfrac{P(X=x,Y=y)}{P(Y=y)}

となります。

定義から分かるように,条件付き期待値 E[XY=y]E[X\mid Y=y]yy の関数です。

E[XY=y]=f(y)E[X\mid Y=y]=f(y) のことを E[XY]=f(Y)E[X\mid Y]=f(Y) と書くことも多いです。また,期待値を取る確率変数が XX であることを強調するために EX[XY]E_X[X\mid Y] と書くこともあります。

また,条件付き分散 V[XY]V[X\mid Y] も同様に定義されます(グループ内での分散,YY の関数)。条件付きでない場合と同様に,以下が成立します:

V[XY]=E[X2Y]E[XY]2V[X\mid Y]=E[X^2\mid Y]-E[X\mid Y]^2

(というよりこの式を条件付き分散の定義とすることが多い気がします)

注:測度論的確率論における条件付き確率の定義はかなりめんどうです。この記事では初等的な定義のみ扱います。

条件付き期待値,分散の公式

条件付き期待値,分散に関する頻出の公式(性質)です。

1. EX[X]=EY[EX[XY]]E_X[X]=E_Y[E_X[X\mid Y]]

E[X]=E[E[XY]]E[X]=E[E[X\mid Y]] と書くこともある

2. VX[X]=EY[VX[XY]]+VY[EX[XY]]V_X[X]=E_Y[V_X[X\mid Y]]+V_Y[E_X[X\mid Y]]

V[X]=E[V[XY]]+V[E[XY]]V[X]=E[V[X\mid Y]]+V[E[X\mid Y]] と書くこともある

公式の証明はそこそこ大変なので割愛しますm(__)m

公式1の具体例と意味

公式1は具体例を見ると意味が分かりやすいです。

例題

サイコロを1回だけふる。出目を XX とする。また,YY を出目が 1,2,31,2,3 なら 114,54,5 なら 2266 なら 33 となる確率変数とする。このとき EX[X]E_X[X]EY[EX[XY]]E_Y[E_X[X\mid Y]] を計算し,一致することを確認せよ。

解答

EX[X]E_X[X] は出目の期待値なので,単純に 1+2+3+4+5+66=72\dfrac{1+2+3+4+5+6}{6}=\dfrac{7}{2}

条件付き期待値の公式

次に条件付き期待値 EX[XY]E_X[X\mid Y] を求める。

  • EX[XY=1]E_X[X\mid Y=1] は,出目が 1,2,31,2,3 のいずれかのもとでの XX の期待値なので,1+2+33=2\dfrac{1+2+3}{3}=2
  • 同様に EX[XY=2]=4+52=92E_X[X\mid Y=2]=\dfrac{4+5}{2}=\dfrac{9}{2}
  • 同様に EX[XY=3]=6E_X[X\mid Y=3]=6

よって,EX[XY]E_X[X\mid Y] の期待値は,36×2+26×92+16×6=72\dfrac{3}{6}\times 2+\dfrac{2}{6}\times \dfrac{9}{2}+\dfrac{1}{6}\times 6=\dfrac{7}{2} となる。

注:それぞれの領域で期待値を取って,最後に全体の重み付き平均を取っているというイメージですね。

公式2について

公式2は日本語で書くと,XX の分散= XYX\mid Y の分散の期待値+ XYX\mid Y の期待値の分散」となります。

だいぶ複雑ですが,とりあえずそれなりに重要な公式だと認識しておくとよいでしょう。

  • 東大大学院(数学系)の入試問題で公式1と公式2について問われたことがあります。
    →情報理工,数理情報学,平成19年度入試第2問参照。

  • 多くのデータを観測したときにベイズ推定の不確実性が減少することの説明に使います。
    →「パターン認識と機械学習」という本の2.1節参照。

私は「条件付き」→「全事象が制限される」とイメージしています。