クラスター分析
クラスター分析とは、いろいろな性質がある対象について、似たものを分類・グループ分けを行う多変量解析の統計手法です。
例えば、人間を考えたとき
・国籍はどこか?
・男性か女性か?
・年齢は?
・職業は何か?
などの特徴を考えましょう。
そうすると、
・日本人グループ
・中年女性グループ
・男性サラリーマングループ など
といったように、いろいろと分類ができるはずです。それを統計的に分類していこうというのが、クラスター分析になります。
考え方
実際は数学的・統計的に分類を行っていくわけですが、どのように行うかを、例を挙げて、基本的な考え方を説明しましょう。
まずは、A~Eという5人の男性がいるとし、それぞれの体重と身長について、平面図で表すと、次のような形になっているとします。
グループ分け
この図から、体重と身長に基づいて、この5人を何となく分類できそうだと思うはずです。
AとEは体が大きい人たち、BとDは体が小さい人たち、Cは小柄で太っている人という風にです。この考えを図に落とし込むと、次のようになるでしょう。
グループ1 … A、E
グループ2 … B、D
グループ3 … C
このように、5人の男性は3つのグループに分類することができます。
グループの統合
更に、3つのグループについて、グループ間で比較をしてみましょう。
そうすると、下図のように、グループ3はそのままで、グループ1とグループ2でひとまとめにできそうです。
グループX … グループ1、グループ2(A、E、B、D)
グループY … グループ3(C)
このような形で、対象を分類していくのがクラスター分析になります。
デンドログラム
データが、体重と身長だけならば、平面図にプロットすることはできますが、データがたくさんあると、平面図では表現しきれません。
そこで、クラスター分析では、下図のような「デンドログラム」が用いられます。
一般に、クラスター分析といった場合、この図を見ることが多いでしょう。
なお、上記のグループをこのデンドログラムに入れると、次のような感じです。
最後に
以上が、クラスター分析の基本的な考え方です。
そしてこの方法は、機械学習などでも使われているものですが、経済学的には、クラスター分析を行うことはあまりないかもしれません。
ただ、計量経済学では分類をおこなうことはできないので、分類が必要なときは、大事なツールと言えるでしょう。
例えば、都道府県を分類したいときも使えたりもします。
おまけ
統計学的には、大きく分けると2つの問題が生じます。
1つは、上記のグループ分けをどうするかという点で、各対象の類似度・非類似度をどのように測るかということです。当然、図り方で、グループ分けが異なってきます。
2つは、上記のグループの統合をどうするかという点です。1つ目の問題と同様に、グループ間の類似度・非類似度が問題になります。
そこで、これらの問題について、
グループ分け … ユークリッド距離、マハラビノスの距離、ミンコフスキー距離 など
グループの統合 … ウォード法、最短距離法、最長距離法、メジアン法 など
といった方法があったりもします。
参考
木下栄蔵『わかりやすい数学モデルによる多変量解析入門』