判別分析法
多変量解析において、判別分析法というものがあります。
これは、ある2つのグループがあるとき、いくつかの変量でどちらにグループに属するかを判定するというものです。
例えば、ある試験について、合格者・不合格者を考えます。そしてそれぞれについて、勉強時間と教師の質という2つのデータが得られたとします。このとき、下図のように、勉強時間と教師の質を元に、2つにグループ分けすることができます。
このとき、別のXという人が、この試験を受けるとき、Xの勉強時間と教師の質をもとに、合格・不合格どちらになりそうかのかを知りたいとします。
これを判定しようとするのが、判別分析法になります。
判別分析法の考えた方
判別分析法の考え方は簡単です。
合格者グループと不合格者グループそれぞれの中心点(平均)を計算し、その中心点とXとの距離を計算します。
そして、距離が近いほうを、そのグループに属すると判断し、グループ分け・判定を行うことになります。
図で表すと、次のようなイメージです。
Xと合格者グループとの距離A、Xと不合格者グループとの距離Bを計算し、
距離A < 距離B ⇒ Xは合格者グループのほうが近い ⇒ Xは合格者 距離A > 距離B ⇒ Xは不合格者グループのほうが近い ⇒ Xは不合格者
と判断します。
特に、2つのグループの分散共分散行列が同じであれば、線形判別関数を求めることができ、線形の方程式で判定を行うことができます。
Y = α × 勉強時間 + β × 教師の質
そして、Yの正負で、どちらのグループに属するかを判定します。
二値選択モデルとの違い
計量経済学において、プロビット・モデルやロジット・モデルといった二値選択モデルがあります。
これは、被説明変数が0か1のいずれかをとるものとして、方程式を推計しようというものです。
この点で、判別分析法とは似たようなことをやっているように思えます。
ただ、判別分析法はあくまでも、どちらのグループに属するかを判定するということに目的があるのに対して、二値選択モデルは、説明変数の影響力を知りたいというのを1つの目的としてます。
また、モデルを推計した結果、別のデータについてどうなるかを知りたいとき、判別分析法ではどちらに属するかが分かることになりますが、二値選択モデルではそれは分かりません。
合格・不合格という話でいえば、判別分析法では、合格か不合格かを判定するのに対して、二値選択モデルでは、合格確率70%などといった形になります。
このように、判別分析法と二値選択モデルは似たような感じですが、目的や得られる結果が違うことになります。
参考
木下栄蔵『わかりやすい数学モデルによる多変量解析入門』
田中豊・脇本和昌『多変量統計解析法』