最尤法
最尤法とは、標本データから、未知のパラメーターを推計する方法です。
母集団分布$f(y ; \theta)$について、その実現値である$y$から未知のパラメーター$\theta$を推定するとします。
このとき、次のような尤度関数($L(\theta)$)を定義します。
$\displaystyle L(\theta) = \prod_{i=1}^n f(y_i ; \theta)$
尤度関数は未知のパラメーター$\theta$の関数であり、母集団分布の積なので、尤度関数が最も大きくなるようなパラメーターを選ぶことが望ましいと言えるでしょう。
そこで、尤度関数を最大化すればいいのですが、数学的にはこのままでは扱いにくいので、対数化して、対数尤度関数を用意します。
$\displaystyle \ln L(\theta) = \sum_{i=1}^n f(y_i ; \theta)$
この対数尤度関数を最大化するため、1階の条件は
$\displaystyle \dfrac{\partial L}{\partial \theta} = 0$
となるので、この式を解いて、$\theta$を求めることになります。
そして、この結果得られたパラメーターの推定量$\hat{\theta}$は、最尤推定量と言われます。
ポイント
最尤法の説明としては、上記の通りですが、ちょっと分かりにくいのではと思います。
そこで、OLS(最小二乗法)と比較して、最尤法が何をやっているのかを説明します。
通常のOLSでは、データにフィットするような直線はどのようなものかを考えます。
一方、最尤法においては、母集団モデルがデータにフィットするように、パラメーターを推定しています。
どちらも、データにフィットするようにパラメーターを推定しているのですが、最尤法においては、直線ではなく、母集団モデルを想定しています。
フィットさせるもの | 方法 | |
---|---|---|
OLS | 回帰直線 | 残差二乗和を最小化 |
最尤法 | 母集団モデル | 尤度関数を最大化 |
例:単回帰
より具体的に見るため、次のような単回帰モデルについて、最尤法でパラメーターを推定してみます。
$y_i = \alpha + \beta x_i + e_i \quad (i=1 \, , \, 2 \, , \, \cdots \, , \, n)$
$e_i$は正規分布$N(0 \, , \, \sigma)$に従うと仮定すると、$y_i$は、正規分布$N(\alpha + \beta \, , \, \sigma)$に従うことになります。
そして、$y_i$に対する確率密度関数$f(y_i ; \alpha , \beta , \sigma^2)$については、正規分布の公式を用いると、
$\displaystyle f(y_i ; \alpha , \beta , \sigma^2) = \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{ – \; \dfrac{1}{2\sigma^2}(y_i \; – \; \alpha \; – \; \beta x_i)^2 \right\}$
となります。
この式をベースに、尤度関数$L$を定義し、式変形を行います。
$L = f(y_1 ; \alpha , \beta , \sigma^2) \cdot \; \cdots \; \cdot f(y_n ; \alpha , \beta , \sigma^2)$
$\displaystyle = \prod_{i=1}^n \dfrac{1}{\sqrt{2 \pi \sigma^2}} \exp \left\{ – \; \dfrac{1}{2\sigma^2}(y_i \; – \; \alpha \; – \; \beta x_i)^2 \right\}$
$\displaystyle = \dfrac{1}{(2\pi \sigma^2)^{n/2}} \exp \left\{ – \; \dfrac{1}{2\sigma^2} \sum_{i=1}^n (y_i \; – \; \alpha \; – \; \beta x_i)^2 \right\}$
そして、対数化して、対数尤度関数を求めると、
$\displaystyle L = – \; \dfrac{n}{2} \ln (2 \pi) \; – \; \dfrac{n}{2} \ln (\sigma^2) \; – \; \dfrac{1}{2\sigma^2} \sum_{i=1}^n (y_i \; – \; \alpha \; – \; \beta x_i)^2$
となり、これを最大化することになります。
$\displaystyle \dfrac{\partial L}{\partial \alpha} = \dfrac{1}{\sigma^2} \sum_{i=1}^n (y_i \; – \; \alpha \; – \; \beta x_i) = 0$
$\displaystyle \dfrac{\partial L}{\partial \beta} = \dfrac{1}{\sigma^2} \sum_{i=1}^n x_i (y_i \; – \; \alpha \; – \; \beta x_i) = 0$
$\displaystyle \dfrac{\partial L}{\partial \sigma^2} = – \; \dfrac{n}{2 \sigma^2} + \dfrac{n}{2 \sigma^4} \sum_{i=1}^n x_i (y_i \; – \; \alpha \; – \; \beta x_i)^2 = 0$
から、次のような最尤推定量を得ることができます。
$\hat{\alpha} = \bar{y} – \hat{\beta} \bar{x}$
$\displaystyle \hat{\beta} = \dfrac{\sum_{i=1}^n (x_i \; – \; \bar{x})(y_i \; – \; \bar{y})}{\sum_{i=1}^n (x_i \; – \; \bar{x})^2}$
$\displaystyle \hat{\sigma}^2 = \dfrac{\sum_{i=1}^n (y_i \; – \; \hat{\alpha} \; – \; \hat{\beta} x_i)^2}{n}$
この推定量は、OLSと同じものですが、導出方法は全く異なっているのが分かると思います。
特に、正規分布を仮定して、$y_i$に関する確率密度関数を使って、尤度関数を定義しているところがポイントです。
参考
黒住英司『計量経済学』
羽森茂之『ベーシック計量経済学』
鹿野繁樹『新しい計量経済学』