2015/11/10

ディリクレ分布の意味と正規化,平均などの計算


確率密度関数が,
$f(x_1,\cdots,x_n)=Cx_1^{\alpha_1-1}\cdots x_n^{\alpha_n-1}$
(ただし,$x_1+\cdots +x_n=1,x_i\geq 0\:(i=1,\cdots,n)$ を満たす$(x_1,\cdots, x_n)$ についてのみ確率が定義される)で表されるような多次元の確率分布をディリクレ分布と言う。ただし,$\alpha_1,\cdots,\alpha_n$ はパラメータで $C$ は正規化定数。

ディリクレ分布とは

ディリクレ分布と他の分布の関係
  • ディリクレ分布はベータ分布を多変量に拡張したような分布です。実際,ディリクレ分布において $n=2$ の場合を考えると,$x_1+x_2=1$ より,
    $f(x_1)=Cx_1^{\alpha_1-1}(1-x_1)^{\alpha_2-1}\:(0\leq x\leq 1)$ となり,ベータ分布になります。
  • ディリクレ分布から抽出したサンプル$(x_1,\cdots,x_n)$ について,$x_1+\cdots +x_n=1,x_i\geq 0\:(1\leq i\leq n)$ が成立するので(確率 $x_i$ で事象 $A_i$ が起こるとみなすことで)多項分布と対応します。つまり,ディリクレ分布は確率分布(多項分布)の分布とみなすことができます。
  • ベイズ推定の文脈でディリクレ分布は多項分布の共役事前分布です。

ディリクレ分布の正規化

ディリクレ分布の正規化定数は,$C=\dfrac{\Gamma(\alpha)}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_n)}$

ただし,$\Gamma$ はガンマ関数で,$\alpha$ が正の整数のとき $\Gamma(\alpha)=(\alpha-1)!$ です。また,$\alpha=\alpha_1+\cdots +\alpha_n$ とおきました。

「積分公式」:
$\displaystyle\int x_1^{\alpha_1-1}\cdots x_n^{\alpha_n-1}dx=\dfrac{\Gamma(\alpha_1)\cdots \Gamma(\alpha_n)}{\Gamma(\alpha_1+\cdots +\alpha_n)}$
(ただし,左辺の定積分の範囲は $x_i\geq 0$,$\displaystyle\sum_{i=1}^nx_i=1$)

からすぐに分かります。証明は多重積分の変数変換を使います。読み飛ばしても構いません。

「積分公式」の証明

ガンマ関数の定義より,
$\Gamma(\alpha_1)\cdots \Gamma(\alpha_n)\\
=\displaystyle\int_0^{\infty}e^{-t_1}t_1^{\alpha_1-1}dt_1\cdots \int_0^{\infty}e^{-t_n}t_n^{\alpha_n-1}dt_n\\
=\displaystyle\int_0^{\infty}\cdots \int_0^{\infty}e^{-t_1-\cdots -t_n}t_1^{\alpha_1-1}\cdots t_n^{\alpha_n-1}dt_1\cdots dt_n$
ここで,$t_1=u_1y,t_2=u_2y,\cdots t_{n-1}=u_{n-1}y,t_n=(1-u_1-\cdots-u_{n-1})y$ と変数変換すると,ヤコビアンは $y^{n-1}$ であることが分かり,上式は
$\displaystyle\int_0^{\infty} e^{-y}y^{\alpha_1+\cdots +\alpha_n-n}y^{n-1}dy\int u_1^{\alpha_1-1}\cdots u_{n-1}^{\alpha_{n-1}-1}(1-u_1-\cdots -u_{n-1})^{\alpha_n-1}du_1\cdots du_{n-1}$
となる(ただし,2つ目の積分の積分範囲は $u_i\geq 0\:(1\leq i\leq n-1)$,$u_1+\cdots +u_{n-1}\leq 1$)。

1つ目の積分は $\Gamma(\alpha_1+\cdots +\alpha_n)$ であり,2つ目の積分は「積分公式」の左辺と等しい。

ディリクレ分布の平均,分散,共分散

$(X_1,\cdots, X_n)$ がパラメータ$(\alpha_1,\cdots,\alpha_n)$ のディリクレ分布に従うとき,
平均:$E[X_i]=\dfrac{\alpha_i}{\alpha}$
分散:$\mathrm{Var}[X_i]=\dfrac{\alpha_i(\alpha-\alpha_i)}{\alpha^2(\alpha+1)}$
共分散:$\mathrm{Cov}(X_i,X_j)=\dfrac{-\alpha_i\alpha_j}{\alpha^2(\alpha+1)}$

いずれも先ほどの「積分公式」を使えば簡単に導出できます。表記簡略化のため,$i=1,j=2$ について証明します(一般の $i,j$ についても全く同様)。

証明(平均)

$E[X_1]=\displaystyle\int x_1f(x_1,\cdots,x_n)dx$ なので「積分公式」において $\alpha_1\to\alpha_1+1$ とすれば,
$E[X_1]=C\dfrac{\Gamma(\alpha_1+1)\Gamma(\alpha_2)\cdots\Gamma(\alpha_n)}{\Gamma(\alpha+1)}\\
=\dfrac{\Gamma(\alpha)\Gamma(\alpha_1+1)}{\Gamma(\alpha+1)\Gamma(\alpha_1)}
=\dfrac{\alpha_1}{\alpha}$
ただし,最後の変形でガンマ関数の公式:$\Gamma(\alpha+1)=\alpha\Gamma(\alpha)$ を用いた。

証明(分散)

平均とほぼ同じ計算。 $\alpha_1\to \alpha_1+2$ として「積分公式」を使う。
$\mathrm{Var}[X_1]=E[X_1^2]-E[X_1]^2\\
=\dfrac{\alpha_1(\alpha_1+1)}{\alpha(\alpha+1)}-\dfrac{\alpha_1^2}{\alpha^2}\\
=\dfrac{\alpha_1(\alpha-\alpha_1)}{\alpha^2(\alpha+1)}$

証明(共分散)

こちらもほぼ同じ計算。 $\alpha_1\to \alpha_1+1,\alpha_2\to\alpha_2+1$ として「積分公式」を使う。
$\mathrm{Cov}(X_1,X_2)=E[X_1X_2]-E[X_1]E[X_2]\\
=\dfrac{\alpha_1\alpha_2}{\alpha(\alpha+1)}-\dfrac{\alpha_1\alpha_2}{\alpha^2}\\
=\dfrac{-\alpha_1\alpha_2}{\alpha^2(\alpha+1)}$

ディリクレ分布の正規化はぜひヤコビアンの計算も含めてやってみてください,感動します!

Tag:いろいろな確率分布の平均,分散,特性関数などまとめ