最尤法によるパラメータ推定の意味と具体例

更新 2021/03/07

最尤法（さいゆうほう）というパラメータ推定の手法について解説します。

最尤推定とは

目標：観測データをもとにパラメータ
θ\thetaθ
 の値を点推定したい。
考え方：パラメータ
θ\thetaθ
 の値が分からないので，とりあえず θ0\theta_0θ0​ だと仮定してみる。その仮定のもとで，実際に観測した事象が起きる確率（→注）L(θ0)L(\theta_0)L(θ0​)
 を考えてみる。
L(θ0)L(\theta_0)L(θ0​)
 が大きいような
θ0\theta_0θ0​
 がもっともらしい推定値である。
実際の手順：尤度関数 L(θ)L(\theta)L(θ) を計算して，それを最大にする θ\thetaθ を推定値とする。
注：連続型確率分布の場合は，確率ではなく確率密度に対応する量になります（例題2参照）。

離散型確率分布の例：コイン

例題1

表が出る確率が $\theta$ であるようなコインがある。このコインを $100$ 回投げたら $70$ 回表が出た。最尤法により $\theta$ を推定せよ。

解答

〜ステップ1：尤度関数を計算する（重要）〜

表が出る確率が $\theta$ であるコインを $100$ 回投げて $70$ 回表が出る確率は，反復試行の確率の公式より

$L(\theta)={}_{100}\mathrm{C}_{70}\theta^{70}(1-\theta)^{30}$

これが尤度関数である。これを最大にする $\theta$ がもっともらしい $\theta$ である。

〜ステップ2： $L(\theta)$ を最大にする $\theta$ を求める（作業）〜

$L(\theta)$ を最大にする $\theta$ と $\log L(\theta)$ を最大にする $\theta$ は同じであるので，計算を楽にするため対数を取る（対数尤度関数）：

$\log L(\theta)=70\log \theta+30\log (1-\theta)+\log {}_{100}\mathrm{C}_{70}$

これを $\theta$ で微分すると，

$\dfrac{d}{d\theta}\log L(\theta)=\dfrac{70}{\theta}-\dfrac{30}{1-\theta}$

となる。

よって， $\dfrac{70}{\theta}-\dfrac{30}{1-\theta}=0$ のとき，つまり $\theta=0.7$ がもっともらしい推定値。

補足：例えば $\theta=0.01$ でも $100$ 回中 $70$ 回表が出る可能性はありますが，そのような確率は $L(0.01)={}_{100}\mathrm{C}_{70}0.01^{70}0.99^{30}$ であり $L(0.7)$ よりはるかに小さいので， $\theta=0.01$ と予想するより $\theta=0.7$ と予想するのがもっともらしいだろう，と考えます。

連続型確率分布の例：正規分布

次は連続型確率分布，かつパラメータが二つの場合を考えます。

例題2

平均が $\mu$ ，分散が $\sigma^2$ である正規分布に独立に従う乱数を生成したところ，出力は $x_1,x_2,\cdots,x_n$ であった。このとき $\mu$ と $\sigma^2$ を最尤法で推定せよ。

解答

〜ステップ1：尤度関数を計算する〜

平均が $\mu$ ，分散が $\sigma^2$ の正規分布に独立に従う乱数の値が $x_1,\cdots,x_n$ である確率は，

$L(\mu,\sigma^2)=\displaystyle\prod_{k=1}^n\left\{\dfrac{1}{\sqrt{2\pi \sigma^2}}\exp\left(-\dfrac{(x_k-\mu)^2}{2\sigma^2}\right)\right\}$

〜ステップ2：尤度関数を最大にする $\mu,\sigma^2$ を求める〜

二変数関数の最大化問題。対数尤度関数は，

$\log L(\mu,\sigma^2)=-\dfrac{n}{2}\log (2\pi\sigma^2)-\dfrac{1}{2\sigma^2}\displaystyle\sum_{k=1}^n(x_k-\mu)^2$

まず $\sigma^2$ を固定して $\mu$ で偏微分すると， $\dfrac{\partial}{\partial \mu}\log L(\mu,\sigma^2)=\dfrac{1}{\sigma^2}\displaystyle\sum_{k=1}^n(x_k-\mu)$ 。よって， $\mu=\dfrac{x_1+x_2+\cdots +x_n}{n}$ のとき尤度関数が最大。

次に $\sigma^2$ について偏微分して $\dfrac{\partial}{\partial \sigma^2}\log L=0$ を解くと， $\sigma^2=\dfrac{1}{n}\displaystyle\sum_{k=1}^n(x_k-\mu)^2$ となる。

補足：上の例では $\mu$ の最尤推定量は標本平均， $\sigma^2$ の最尤推定量は標本分散であることが分かりました。これは非常に自然な結果に思えますが，不偏性という観点から見ると $\sigma^2$ の推定値は標本分散にすべきではありません。→不偏標本分散の意味とn-1で割ることの証明

尤という漢字，最尤推定以外の文脈では見たことがない気がします。

この記事の監修者

マスオ

高校数学の美しい物語の管理人。「わかりやすいこと」と「ごまかさないこと」の両立を意識している。著書に『高校数学の美しい物語』『超ディープな算数の教科書』。記事の誤植やわかりにくい等のご指摘はお気軽にメールください！