はじめに
計量経済学の回帰分析において、説明変数に二値ダミーを使うことがあるかと思います。
例えば、ダミー変数を
$d_i = \begin{equation}
\begin{cases}
0(ある事象に該当しない)\\
\\
1(ある事象に該当する)\\
\end{cases}
\end{equation}$
として、次のようなモデルを推計する場合です。
$y_i = \alpha +\beta d_i + u_i \quad \cdots \quad (1)$
このとき、通常のOLSを使うことができるわけですが、いくつかの性質があります。
性質
ダミー変数の平均
サンプル数を$n$としたとき、ダミー変数が$0$の数を$n_0$、$1$の数を$n_1$とすると、
$n = n_0 + n_1$
ですが、ダミー変数の平均$\bar{d}$は、
$\displaystyle \bar{d} = \dfrac{1}{n} \sum_{i=1}^n d_i = \dfrac{1}{n} = (0 + 0 + \cdots + 0 + 1 + 1 + \cdots + 1) = \dfrac{n_1}{n} \quad \cdots \quad (2)$
なので、ダミー変数の平均は、$d_i$が$1$である割合を示しています。
説明変数の係数
$(1)$式のモデルについて、期待値をとると、次のようになります。
$E(y_i) = \alpha + \beta d_i$
ところで、ダミー変数が$0$の場合の被説明変数の平均を$\mu_0$、ダミー変数が$1$の場合の被説明変数の平均を$\mu_1$とします。すなわち、
$\mu_0 = E(y_i | d_i = 0)$
$\mu_1 = E(y_i | d_i = 1)$
とすると、上記の期待値の式から
$d_i=0$のとき、$\mu_0 = \alpha +\beta \cdot 0 = \alpha$
$d_i=1$のとき、$\mu_1 = \alpha +\beta \cdot 1 = \alpha + \beta$
を得ることができます。
このことから、説明変数の係数は
$\alpha = \mu_0$
$\beta = \mu_1 \; – \; \mu_0$
と表すことができます。
推定値
$(1)$式にOLSを行うと、係数の推定値は、
$\hat{\beta} = \dfrac{\sum(d_i \; – \; \bar{d})(y_i \; – \; \bar{y})}{\sum (d_i \; – \; \bar{d})^2} \quad \cdots \quad (3)$
$\hat{\alpha} = \bar{y} – \hat{\beta} \bar{d} \quad \cdots \quad (4)$
となります。
【$\hat{\beta}$について】
まずは、$(3)$式において、分母を考えます。
$\sum (d_i \; – \; \bar{d})^2 = \sum D_i^2 \; -\; n \bar{d}^2 = \sum d_i \; – \; n \dfrac{1}{n^2} \sum d_i \sum d_i$
であり、$(2)$式を考えると、
$\sum (d_i \; – \; \bar{d})^2 = n_1 \; – \; \dfrac{n_1^2}{n} = \dfrac{n_0 n_1}{n}$
を得ることができます。
次に、$(3)$式の分子を考えます。
$\sum(d_i \; – \; \bar{d})(y_i \; – \; \bar{y}) = \sum d_i y_i \; – \; \bar{d} \sum y_i \; – \; \bar{y} \sum d_i + \sum \bar{d}{y} = \sum d_i y_i \; – \; n \bar{d} \bar{y} = \sum d_i y_i \; – \; n \dfrac{1}{n}\sum d_i \bar{y}$
ここで、$(2)$式を考えると、
$\sum(d_i \; – \; \bar{d})(y_i \; – \; \bar{y}) = n_1 \bar{y_1} \; – \; \dfrac{n_1}{n}(n_0 \bar{y_0}+ n_1 \bar{y_1}) = \dfrac{n_0 n_1}{n}\bar{y_1} \; – \; \dfrac{n_0 n_1}{n}\bar{y_0}$
となります。
以上の分母・分子の式から、
$\hat{\beta} = \left( \dfrac{n_0 n_1}{n} \bar{y_1} \; – \; \dfrac{n_0 n_1}{n} \bar{y_0} \right) \div \left( \dfrac{n_0 n_1}{n} \right) = \bar{y_1} \; – \; \bar{y_0}$
を得ることができます。
【$\hat{\alpha}$について】
$(4)$式から
$\hat{\alpha} = \bar{y} – (\bar{y_1} \; – \; \bar{y_0}) \bar{d}$
であり、
$\hat{\alpha} = \left( \dfrac{n_1}{n}\bar{y_1} + \dfrac{n_0}{n}\bar{y_0} \right) \; – \; (\bar{y_1} \; – \; \bar{y_0}) \dfrac{n_1}{n} = \left( \dfrac{n_0 + n_1}{n} \right) \bar{y_0} = \bar{y_0}$
となります。
以上から、ダミー変数を使ったときのOLSの推定量は、次のようになります。
$\hat{\alpha} = \bar{y_0}$
$\hat{\beta} = \bar{y_1} \; – \; \bar{y_0}$
参考
鹿野繁樹『新しい計量経済学』