スポンサーリンク

クラスター分析における距離(非類似度)のまとめ

スポンサーリンク
 
投稿統計学初級
多変量解析のクラスター分析において、いくつもある非類似度を示す距離の指標について、まとめています。
スポンサーリンク
スポンサーリンク
スポンサーリンク

はじめに

 多変量解析のクラスター分析において、クラスターを作るにあたり、データ間の非類似度を知る必要があります。
 非類似度が大きいほど、違うクラスターに属し、非類似度が小さいほど、同じクラスターと考えられるからです。

 ただ、この非類似度をどのように計算するかで、クラスター分析の結果も当然ながら、変わってきます。

 そこでここでは、クラスター分析における距離(非類似度)の指標をまとめています。

距離(非類似度)

 個体が$N$、変量が$K$あるとして、それぞれのデータを$x_{ki} (k = 1 \, , \, \cdots K \quad , \quad i=1 \, , \, \cdots N)$とします。

 そして、個体$i$と$j$の非類似度(距離)を$D_{ij}$とします。

ユークリッド平方距離

 スタンダードなものとして、ユークリッド平方距離があります。

  $\displaystyle D_{ij} = \sum_{k=1}^K (x_{ki} \; – \; x_{kj})^2$

 なお、同様なものですが、次のようなユークリッド距離にあります。

  $\displaystyle D_{ij} = \sqrt{\sum_{k=1}^K (x_{ki} \; – \; x_{kj})^2}$

標準化ユークリッド距離(重みつきユークリッド平方距離)

 変量$k$の分散を$\sigma_k$としたとき、標準化ユークリッド距離は次のように定義されます。

  $\displaystyle D_{ij} = \sum_{k=1}^K (x_{ki} \; – \; x_{kj})^2 / \sigma_k$

 ユークリッド平方距離に対して、分散で基準化している形になります。

 なお、$1 / \sigma_k$はある種の重みであり、ユークリッド平方距離に重みをつけたものであることから、重みつきユークリッド平方距離と言われたりもします。

マハラノビスの距離

 個体$i$のデータベクトルを$\boldsymbol{x}_i =(x_{1i} \, , \cdots x_{Ki})’$とし、分散共分散行列を$\Sigma$とすると、マハラノビスの距離は、次のように定義されます。

  $\displaystyle D_{ij} = (\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)’ \Sigma^{-1} (\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)$

 なお、$(\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)’$は$(\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)$の転置行列、$\Sigma^{-1}$は$\Sigma$の逆行列です。

ミンコフスキー距離

 ユークリッド距離をより一般化したものとして、ミンコフスキー距離があります。

  $\displaystyle D_{ij} = \left( \sum_{k=1}^K |x_{ki} \; – \; x_{kj}|^m \right)^{1/m}$

 この式から分かるように、$m=2$のときは、ユークリッド平方距離になります。

参考

  木下栄蔵『わかりやすい数学モデルによる多変量解析入門

  田中豊・脇本和昌『多変量統計解析法

スポンサーリンク
タイトルとURLをコピーしました