確率モデルパラメータの最尤推定
最尤推定の定義
確率モデル$ f(x|\theta)に従う$ N個の学習データ$ x_i (i = 1, ..., \ N)の同時分布を考えると、サンプルの独立性から、
$ L(\theta) = f(x_1, ..., \ x_N|\theta) = \prod^N_{i=1}f(x_i|\theta)
と表すことができます。
確率モデルのパラメータを求める一つの方法は、この尤度を最大にするパラメータ$ \thetaを見つけることです。これは最尤推定法とよばれ、統計学の分野で広く使われています。最尤推定法では、尤度関数$ L(\theta)、あるいはその対数をとった対数尤度関数$ lnL(\theta)をパラメータで微分し、$ 0とおいて解くことで最適なパラメータを得ます。
すなわち、以下のような式になります。
$ \frac{\partial L(\theta)}{\partial \theta_i} = 0または $ \frac{\partial lnL(\theta)}{\partial \theta_i} = 0 $ (i = 1, ..., \ M)
最尤推定の例
$ 1変数の正規分布の場合について、最尤推定法で平均値$ \muと分散$ \sigma^2を求めてみます。観測データを$ x_i (i = 1, ..., N)とすれば、尤度関数と対数尤度関数は、
$ L(\mu, \sigma^2) = f(x_1, ..., x_N|\mu, \sigma^2) = \prod^N_{i=1}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i - \mu)^2}{2\sigma^2}) = (2\pi\sigma^2)^{-\frac{N}{2}}exp(-\frac{1}{2\sigma^2}\sum^N_{i=1}(x_i - \mu)^2)
$ lnL(\mu, \sigma^2) = -\frac{N}{2}ln(2\pi) - \frac{N}{2}ln\sigma^2 - \frac{1}{2\sigma^2}\sum^N_{i=1}(x_i - \mu)^2
となります。よって最尤推定値は、
$ \frac{\partial lnL(\mu, \sigma^2)}{\partial \mu} = \frac{1}{\sigma^2}\sum^N_{i=1}(x_i - \mu) = 0 ⇒ $ \hat{\mu} = \frac{1}{N}\sum^N_{i=1}x_i
$ \frac{\partial lnL(\mu, \sigma^2)}{\partial \sigma^2} = - \frac{N}{2}\frac{1}{\sigma^2} + \frac{2}{(2\sigma^2)^2}\sum^N_{i=1}(x_i - \mu)^2 = 0 ⇒ $ \hat{\sigma^2} = \frac{1}{N}\sum^N_{i=1}(x_i - \hat{\mu})^2
として得ることができます。