2015/07/19

最尤法によるパラメータ推定の意味と具体例


最尤法(さいゆうほう,MLE)というパラメータ推定の手法について解説します。

最尤推定とは

最尤推定

目標:観測データをもとにパラメータ $\theta$ の値を点推定したい。

考え方:パラメータ $\theta$ の値が分からないので,とりあえず $\theta_0$ だと仮定してみる。その仮定のもとで,実際に観測した事象が起きる確率(→注)$L(\theta_0)$ を考えてみる。 $L(\theta_0)$ が大きいような $\theta_0$ がもっともらしい推定値である。

実際の手順:尤度関数 $L(\theta)$ を計算して,それを最大にする $\theta$ を推定値とする。

注:連続型確率分布の場合は確率ではなく確率密度に対応する量になります(例題2参照)。

離散型確率分布の例:コイン

例題1

表が出る確率が $\theta$ であるようなコインがある。このコインを $100$ 回投げたら $70$ 回表が出た。最尤法により $\theta$ を推定せよ。

解答

〜ステップ1:尤度関数を計算する(重要)〜
表が出る確率が $\theta$ であるコインを $100$ 回投げて $70$ 回表が出る確率は,反復試行の確率の公式より
$L(\theta)={}_{100}\mathrm{C}_{70}\theta^{70}(1-\theta)^{30}$
これが尤度関数である。これを最大にする $\theta$ がもっともらしい $\theta$ である。

〜ステップ2:$L(\theta)$ を最大にする $\theta$ を求める(作業)〜
$L(\theta)$ を最大にする $\theta$ と $\log L(\theta)$ を最大にする $\theta$ は同じであるので,計算を楽にするため対数を取る(対数尤度関数):
$\log L(\theta)=70\log \theta+30\log (1-\theta)+\log {}_{100}\mathrm{C}_{70}$
これを $\theta$ で微分すると,
$\dfrac{d}{d\theta}\log L(\theta)=\dfrac{70}{\theta}-\dfrac{30}{1-\theta}$
となる。
よって,$\dfrac{70}{\theta}-\dfrac{30}{1-\theta}=0$ のとき,つまり $\theta=0.7$ がもっともらしい推定値。


補足:例えば $\theta=0.01$ でも $100$ 回中 $70$ 回表が出る可能性はありますが,そのような確率は $L(0.01)={}_{100}\mathrm{C}_{70}0.01^{70}0.99^{30}$ であり $L(0.7)$ よりはるかに小さいので,$\theta=0.01$ と予想するより $\theta=0.7$ と予想するのがもっともらしいだろう,と考えます。

連続型確率分布の例:正規分布

次は連続型確率分布,かつパラメータが二つの場合を考えます。

例題2

平均が $\mu$,分散が $\sigma^2$ である正規分布に独立に従う乱数を生成したところ,出力は $x_1,x_2,\cdots,x_n$ であった。このとき $\mu$ と $\sigma^2$ を最尤法で推定せよ。

解答

〜ステップ1:尤度関数を計算する〜
平均が $\mu$,分散が $\sigma^2$ の正規分布に独立に従う乱数の値が $x_1,\cdots,x_n$ である確率は,
$L(\mu,\sigma^2)=\displaystyle\prod_{k=1}^n\left\{\dfrac{1}{\sqrt{2\pi \sigma^2}}\exp\left(-\dfrac{(x_k-\mu)^2}{2\sigma^2}\right)\right\}$

〜ステップ2:尤度関数を最大にする $\mu,\sigma^2$ を求める〜
二変数関数の最大化問題。対数尤度関数は,
$\log L(\mu,\sigma^2)=-\dfrac{n}{2}\log (2\pi\sigma^2)-\dfrac{1}{2\sigma^2}\displaystyle\sum_{k=1}^n(x_k-\mu)^2$
まず $\sigma^2$ を固定して $\mu$ で偏微分すると,$\dfrac{\partial}{\partial \mu}\log L(\mu,\sigma^2)=\dfrac{1}{\sigma^2}\displaystyle\sum_{k=1}^n(x_k-\mu)$ 。よって, $\mu=\dfrac{x_1+x_2+\cdots +x_n}{n}$ のとき尤度関数が最大。
次に $\sigma^2$ について偏微分して $\dfrac{\partial}{\partial \sigma^2}\log L=0$ を解くと, $\sigma^2=\dfrac{1}{n}\displaystyle\sum_{k=1}^n(x_k-\mu)^2$ となる。


補足:上の例では $\mu$ の最尤推定量は標本平均,$\sigma^2$ の最尤推定量は標本分散であることが分かりました。これは非常に自然な結果に思えますが,不偏性という観点から見ると $\sigma^2$ の推定値は標本分散にすべきではありません。→不偏標本分散の意味とn-1で割ることの証明

尤という漢字,最尤推定以外の文脈では見たことがない気がします。