スポンサーリンク

クラスター分析の基本的な考え方

スポンサーリンク
 
投稿統計学初級
グループ分けするのに便利な多変量解析のクラスター分析について、数式なしで基本的な考え方を説明します。
スポンサーリンク
スポンサーリンク
スポンサーリンク

クラスター分析

 クラスター分析とは、いろいろな性質がある対象について、似たものを分類・グループ分けを行う多変量解析の統計手法です。

 例えば、人間を考えたとき

  ・国籍はどこか?

  ・男性か女性か?

  ・年齢は?

  ・職業は何か?

などの特徴を考えましょう。

 そうすると、

  ・日本人グループ

  ・中年女性グループ

  ・男性サラリーマングループ など

といったように、いろいろと分類ができるはずです。それを統計的に分類していこうというのが、クラスター分析になります。

考え方

 実際は数学的・統計的に分類を行っていくわけですが、どのように行うかを、例を挙げて、基本的な考え方を説明しましょう。

 まずは、A~Eという5人の男性がいるとし、それぞれの体重と身長について、平面図で表すと、次のような形になっているとします。

グループ分け
この図から、体重と身長に基づいて、この5人を何となく分類できそうだと思うはずです。
 AとEは体が大きい人たち、BとDは体が小さい人たち、Cは小柄で太っている人という風にです。この考えを図に落とし込むと、次のようになるでしょう。

  グループ1 … A、E
  グループ2 … B、D
  グループ3 … C

 このように、5人の男性は3つのグループに分類することができます。

グループの統合
 更に、3つのグループについて、グループ間で比較をしてみましょう。
 そうすると、下図のように、グループ3はそのままで、グループ1とグループ2でひとまとめにできそうです。

  グループX … グループ1、グループ2(A、E、B、D)
  グループY … グループ3(C)

 このような形で、対象を分類していくのがクラスター分析になります。

デンドログラム
 データが、体重と身長だけならば、平面図にプロットすることはできますが、データがたくさんあると、平面図では表現しきれません。
 そこで、クラスター分析では、下図のような「デンドログラム」が用いられます。

 一般に、クラスター分析といった場合、この図を見ることが多いでしょう。

 なお、上記のグループをこのデンドログラムに入れると、次のような感じです。

最後に

 以上が、クラスター分析の基本的な考え方です。

 そしてこの方法は、機械学習などでも使われているものですが、経済学的には、クラスター分析を行うことはあまりないかもしれません。

 ただ、計量経済学では分類をおこなうことはできないので、分類が必要なときは、大事なツールと言えるでしょう。
 例えば、都道府県を分類したいときも使えたりもします。

   都道府県別の産業構造について、クラスター分析の例として分析

おまけ

 統計学的には、大きく分けると2つの問題が生じます。

 1つは、上記のグループ分けをどうするかという点で、各対象の類似度・非類似度をどのように測るかということです。当然、図り方で、グループ分けが異なってきます。

 2つは、上記のグループの統合をどうするかという点です。1つ目の問題と同様に、グループ間の類似度・非類似度が問題になります。

 そこで、これらの問題について、

  グループ分け … ユークリッド距離、マハラビノスの距離、ミンコフスキー距離 など

  グループの統合 … ウォード法、最短距離法、最長距離法、メジアン法 など

といった方法があったりもします。

参考

  木下栄蔵『わかりやすい数学モデルによる多変量解析入門

スポンサーリンク
タイトルとURLをコピーしました