はじめに
回帰分析を行うにあたって、
「一部のデータの影響を知りたい」
「一部のデータの影響を取り除きたい」
ということがあります。
例えば、あるお店をやっているとして、日々の売上を分析するにあたり、平日と土曜日・日曜日では売上は変わってくるでしょう。そうしたとき、土曜日・日曜日の影響はどうなのかと思うことがあると思います。逆に、土曜日・日曜日の影響がなかったときの売上は水準はどうなのかと思ったりもするでしょう。
このようなことを簡単にできるのがダミー変数です。
基本
簡単な回帰分析で考えましょう。
$n$個のデータがあるとして、説明変数を$x_i$を被説明変数を$y_i$としたとき、次のようなモデルを考えます。
$y_i = a + b x_i + e_i (i = 1, \cdots , n)$
ここで、$a、b$は推計したい定数・係数で、$e_i$は誤差項です。
次に、ダミー変数$d_i$を導入しましょう。ダミー変数は0もしくは1の値をとります(「01ダミー」などと言ったりもします)。
このときモデルは、次のようになります。
$y_i = a + b x_i + c d_i + e_i (i = 1, \cdots , n)$
そして、この式を回帰分析を推計すれば、いいことになります。
例
以上ではイメージが付きにくいので、例を挙げてみましょう。
あるアイスクリーム店をやっているとして、次のような売上と気温のデータが得られたとします。
日付 | 曜日 | 売上($y_i$) | 気温($x_i$) |
---|---|---|---|
8月1日 | 月 | 5.0万円 | 30℃ |
8月2日 | 火 | 6.2万円 | 32℃ |
8月3日 | 水 | 4.8万円 | 30℃ |
8月4日 | 木 | 4.9万円 | 31℃ |
8月5日 | 金 | 5.8万円 | 33℃ |
8月6日 | 土 | 6.3万円 | 30℃ |
8月1日 | 日 | 6.5万円 | 29℃ |
このデータをそのまま推計して、気温と売上の関係を見てもいいでしょう。
(データが少なすぎますが、あくまでも例なので、ご了承ください)
ただ何となくですが、気温が低めなのにもかかわらず、土曜日や日曜日の売上は高い気がします。
そうしたとき、
「土曜日や日曜日の売上に対する効果はどうなのか」
「土曜日や日曜日といった特別な効果を除いて、気温と売上の関係はどうなのか」
と思うでしょう。
そこで、ダミー変数を使います。
具体的には、次のように、土曜効果として土曜日だけを1、それ以外の曜日を0としたものと、日曜効果として日曜日だけを1、それ以外の曜日を0としたものをデータとして加えます。
日付 | 曜日 | 売上($y_i$) | 気温($x_i$) | 土曜効果($d_1$) | 日曜効果($d_2$) |
---|---|---|---|---|---|
8月1日 | 月 | 5.0万円 | 30℃ | 0 | 0 |
8月2日 | 火 | 6.2万円 | 32℃ | 0 | 0 |
8月3日 | 水 | 4.8万円 | 30℃ | 0 | 0 |
8月4日 | 木 | 4.9万円 | 31℃ | 0 | 0 |
8月5日 | 金 | 5.8万円 | 33℃ | 0 | 0 |
8月6日 | 土 | 6.3万円 | 30℃ | 1 | 0 |
8月1日 | 日 | 6.5万円 | 29℃ | 0 | 1 |
あとはこのデータを回帰分析をすればいいことになります。
これにより、ダミー変数の係数が有意かどうか、その効果の大きさが分かります。
一般的なダミー変数を使う場合
上記のように、0と1のデータを付け加えるだけで、これまでとは異なった分析ができるので、ダミー変数はちょっと便利です。
一般的には、次のような場面でダミー変数が使われます。
①異常値
明らかに異常値があるときには、異常値について1、それ以外を0とすることで、異常値の効果を取り除くことができます。
②期間
上記の例のように、曜日・月・季節(春・夏・秋・冬)について、ダミー変数を使うことがあります。
③構造変化
ある大きな出来事があった場合、出来事前は0、出来事後は1としたダミー変数を使えば、実際にその出来事は影響があったのかどうかが分かります。
例えば、災害前後、政策実施前後などでの違いを見ることができたりもします。
最後に
極端なことを言えば、ダミー変数だけでも、推計ができたりもしますし、エクセルで回帰分析もできるのですが、セルに0と1を加えるだけで違った分析もできるので、非常に簡単で便利です。
ただ、違いがわかるだけで、そのメカニズムなどは分からないので、注意が必要だったりもします。