最尤法について

最尤法

　最尤法とは、標本データから、未知のパラメーターを推計する方法です。

　母集団分布$f(y ; \theta)$について、その実現値である$y$から未知のパラメーター$\theta$を推定するとします。

　このとき、次のような尤度関数（$L(\theta)$）を定義します。

　　$\displaystyle L(\theta) = \prod_{i=1}^n f(y_i ; \theta)$

　尤度関数は未知のパラメーター$\theta$の関数であり、母集団分布の積なので、尤度関数が最も大きくなるようなパラメーターを選ぶことが望ましいと言えるでしょう。

　そこで、尤度関数を最大化すればいいのですが、数学的にはこのままでは扱いにくいので、対数化して、対数尤度関数を用意します。

　　$\displaystyle \ln L(\theta) = \sum_{i=1}^n f(y_i ; \theta)$

　この対数尤度関数を最大化するため、1階の条件は

　　$\displaystyle \dfrac{\partial L}{\partial \theta} = 0$

となるので、この式を解いて、$\theta$を求めることになります。

　そして、この結果得られたパラメーターの推定量$\hat{\theta}$は、最尤推定量と言われます。

ポイント

　最尤法の説明としては、上記の通りですが、ちょっと分かりにくいのではと思います。
　そこで、OLS（最小二乗法）と比較して、最尤法が何をやっているのかを説明します。

　通常のOLSでは、データにフィットするような直線はどのようなものかを考えます。

　一方、最尤法においては、母集団モデルがデータにフィットするように、パラメーターを推定しています。

　どちらも、データにフィットするようにパラメーターを推定しているのですが、最尤法においては、直線ではなく、母集団モデルを想定しています。

	フィットさせるもの	方法
OLS	回帰直線	残差二乗和を最小化
最尤法	母集団モデル	尤度関数を最大化

例：単回帰

　より具体的に見るため、次のような単回帰モデルについて、最尤法でパラメーターを推定してみます。

　　$y_i = \alpha + \beta x_i + e_i \quad (i=1 \, , \, 2 \, , \, \cdots \, , \, n)$

$e_i$は正規分布$N(0 \, , \, \sigma)$に従うと仮定すると、$y_i$は、正規分布$N(\alpha + \beta \, , \, \sigma)$に従うことになります。

　そして、$y_i$に対する確率密度関数$f(y_i ; \alpha , \beta , \sigma^2)$については、正規分布の公式を用いると、

　　$\displaystyle f(y_i ; \alpha , \beta , \sigma^2) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{ – \; \dfrac{1}{2\sigma^2}(y_i \; – \; \alpha \; – \; \beta x_i)^2 \right\}$

となります。

　この式をベースに、尤度関数$L$を定義し、式変形を行います。

　　$L = f(y_1 ; \alpha , \beta , \sigma^2) \cdot \; \cdots \; \cdot f(y_n ; \alpha , \beta , \sigma^2)$

　　　$\displaystyle = \prod_{i=1}^n \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{ – \; \dfrac{1}{2\sigma^2}(y_i \; – \; \alpha \; – \; \beta x_i)^2 \right\}$

　　　$\displaystyle = \dfrac{1}{(2\pi \sigma^2)^{n/2}} \exp \left\{ – \; \dfrac{1}{2\sigma^2} \sum_{i=1}^n (y_i \; – \; \alpha \; – \; \beta x_i)^2 \right\}$

そして、対数化して、対数尤度関数を求めると、

　　$\displaystyle L = – \; \dfrac{n}{2} \ln (2 \pi) \; – \; \dfrac{n}{2} \ln (\sigma^2) \; – \; \dfrac{1}{2\sigma^2} \sum_{i=1}^n (y_i \; – \; \alpha \; – \; \beta x_i)^2$

となり、これを最大化することになります。

　　$\displaystyle \dfrac{\partial L}{\partial \alpha} = \dfrac{1}{\sigma^2} \sum_{i=1}^n (y_i \; – \; \alpha \; – \; \beta x_i) = 0$

　　$\displaystyle \dfrac{\partial L}{\partial \beta} = \dfrac{1}{\sigma^2} \sum_{i=1}^n x_i (y_i \; – \; \alpha \; – \; \beta x_i) = 0$

　　$\displaystyle \dfrac{\partial L}{\partial \sigma^2} = – \; \dfrac{n}{2 \sigma^2} + \dfrac{n}{2 \sigma^4} \sum_{i=1}^n x_i (y_i \; – \; \alpha \; – \; \beta x_i)^2 = 0$

から、次のような最尤推定量を得ることができます。

　　$\hat{\alpha} = \bar{y} – \hat{\beta} \bar{x}$

　　$\displaystyle \hat{\beta} = \dfrac{\sum_{i=1}^n (x_i \; – \; \bar{x})(y_i \; – \; \bar{y})}{\sum_{i=1}^n (x_i \; – \; \bar{x})^2}$

　　$\displaystyle \hat{\sigma}^2 = \dfrac{\sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta} x_i)^2}{n}$

　この推定量は、OLSと同じものですが、導出方法は全く異なっているのが分かると思います。

　特に、正規分布を仮定して、$y_i$に関する確率密度関数を使って、尤度関数を定義しているところがポイントです。

参考

　　黒住英司『計量経済学』

　　羽森茂之『ベーシック計量経済学』

　　鹿野繁樹『新しい計量経済学』