はじめに
計量経済学のモデルにおいて、被説明変数が質的変数であることがあります。
例えば、大学入学試験の合否、持ち家の有無などのように、0か1というデータがあるとき、何が大学入学試験の合否に影響を与えているのかを見たいなど、その0・1のデータが被説明変数となることがあります。
このようなときには、通常の回帰分析を行うと、予測値が0から1の範囲に収まらない可能性ができてくるので、工夫が必要となります。
そしてそのベーシックな方法として、プロビット・モデルがあります。
プロビット・モデル
モデル
被説明変数を$Y_i$とし、$Y_i$は$0$か$1$の値しかとらないとします。そしてその説明変数を$X_i$とします。
一般的には、
$Y_i = \alpha + \beta X_i$
というモデルを考えますが、上記の通り、これでは予測値$\hat{Y_i}$が$0$から$1$の範囲内にならないことが予想されます。
そこで、母集団に関してベルヌーイ分布に従うとし、その生起確率が標準正規分布に従うと仮定します。
$\Phi$を標準正規分布の累積分布関数とすると、$Y_i =1$の生起確率が、$X_i$に依存するような条件つき確率$p_i$を、次のように仮定できます。
$p_i = P(Y_i = 1 | X_i) = \Phi(\alpha + \beta X_i) \quad \cdots \quad (1)$
これにより、$\alpha + \beta X_i$は、$0$から$1$の範囲に収まることになり、累積分布関数なので、$\alpha + \beta X_i$が大きくなるほど、$1$に近づくことになります。
なお、$Y_i$の条件付き期待値を求めると、
$E(Y_i | X_i) = 0 \cdot (1 \; – \; p_i) + 1 \cdot p_i = P(Y_i = 1 | X_i) = \Phi(\alpha + \beta X_i)$
であり、$(1)$式は$X_i$から$Y_i$への回帰モデルになっていることが分かります。
推定
$(1)$式を推定することを考えますが、$(1)$式は非線形なので、通常の線形回帰は使えないので、最尤法を用いる必要があります。
$(1)$式を用いて、尤度関数$L$を定義すると、
$\displaystyle L(\alpha \, , \, \beta) = \prod_i^n (1 \; – \; \Phi(\alpha + \beta X_i))^{1-Y_i} \cdot \Phi(\alpha + \beta X_i)^{Y_i}$
となり、対数尤度関数は
$\displaystyle \ln L(\alpha \, , \, \beta) = \sum_{i=1}^n (1 \; – \; Y_i)(1 \; – \; \Phi(\alpha + \beta X_i)) + \sum_{i=1}^n Y_i \Phi(\alpha + \beta X_i)$
を得ることができます。そこで、この式から、パラメーター$\alpha$と$\beta$を最大化し、最尤推定量を得ることができます。
なお、当てはまりについては、回帰分析の決定係数などは使えないので、尤度比指数などが用いられます。
限界効果
モデルの目的は、$X_i$が変化したとき、$Y_i=1$となるような確率はどれだけ変化するかという点にあります。
この点から、プロビット・モデルで推計した$\beta$はそのような意味をもっていません。
ですので、プロビット・モデルにおいては、次のような限界効果が重要となります(なお、$\phi$は、累積分布関数$\Phi$の密度関数です)。
$\dfrac{d p_i}{d X_i} = \phi(\alpha + \beta X_i) \beta$
これを計算すれば、$X_i$が変化したとき、$p_i$がどうなるのかが分かりますが、この式から分かるように、添え字$i$がついており、$X_i$によって、限界効果が変わることになります。
そこで、限界効果を計算するには、$X_i$の平均値を使用したり、$\alpha + \beta X_i$の平均値(この式では$X_i$の平均値と同じですが、説明変数が多変量の場合、異なります)を使って、計算します。
参考
黒住英司『計量経済学』
鹿野繁樹『新しい計量経済学』