はじめに
あるモデルを推計しようとしたとき、従属変数が質的データであることがあります。
例えば、受験生の勉強時間や模擬試験をもとに、大学の入学試験に合格したかどうかを推計する場合です。
合格(不合格) = α + β × 勉強時間 + γ × 模擬試験の成績
このときには、被説明変数の合格・不合格は、データとしては、1と0で扱われることになります。
しかし、勉強時間や模擬試験の成績を説明変数にして、通常の回帰分析・OLSを行うと、αなどの推定値を得ることができるのですが、その推計結果に基づいた合否の値が、0~1に収まる可能性はありません。
このように、従属変数が質的データの場合には、通常の回帰分析が使えないので、それに合わせた特殊な推計方法が必要となります。
そして、質的データの種類・パターンによっても、いくつかの方法があるので、その全体像を説明したいと思います。
(なお、多変量解析において、判別分析法などがありますが、それらは除きます)
推計方法
以下より、従属変数の種類・パターンで分けて、いくつかの推計方法を紹介していきます。
(二値の場合)
従属変数が、ある・なしなどというに、0と1をとる場合です。
この場合には、「プロビット・モデル」や「ロジット・モデル」が使われます。
(選択肢が複数の場合)
従属変数が、ある・なしといった2つの選択肢しかないのと異なり、複数の選択肢がある場合です。
例えば、進学したい学部を従属変数とした場合、経済学、商学部、法学部など、いくつも選択肢が生じることになります。
このときには、「多項ロジット・モデル」が使われます。
(選択肢が複数で順序がある場合)
従属変数として、複数の選択肢があり、しかもその従属変数が順序を有している場合です。
例えば、アンケートなどで、「良い」「普通」「悪い」という選択肢があるときです。
この場合には、「順序プロビット・モデル」や「順序ロジット・モデル」が使われます。
(従属変数が回数である場合)
従属変数として、質的データなのですが、回数の場合があります。
例えば、事故に遭った回数を従属変数とした場合です。このときには、通常の回帰分析も可能だと思われますが、推計結果は0以上という制約を満たしてくれるとは限りません。特に、回数というデータの性質から、従属変数の値は小さいため、推計結果がマイナスに陥りやすいという問題があります。また、従属変数は離散データであることも明白です。
この場合には、「ポワソン回帰モデル」が使われます。
(従属変数が端点解のある場合)
従属変数が、ある値で切断されているような場合です。
例えば、従属変数が死亡率の場合には、0以下の値はとらず、0以上の場合には、連続変数となっています。
この場合には、「トービット・モデル」が使われます。
参考
黒住英司『計量経済学』
鹿野繁樹『新しい計量経済学』