はじめに
多変量解析のクラスター分析において、クラスターを作るにあたり、データ間の非類似度を知る必要があります。
非類似度が大きいほど、違うクラスターに属し、非類似度が小さいほど、同じクラスターと考えられるからです。
ただ、この非類似度をどのように計算するかで、クラスター分析の結果も当然ながら、変わってきます。
そこでここでは、クラスター分析における距離(非類似度)の指標をまとめています。
距離(非類似度)
個体が$N$、変量が$K$あるとして、それぞれのデータを$x_{ki} (k = 1 \, , \, \cdots K \quad , \quad i=1 \, , \, \cdots N)$とします。
そして、個体$i$と$j$の非類似度(距離)を$D_{ij}$とします。
ユークリッド平方距離
スタンダードなものとして、ユークリッド平方距離があります。
$\displaystyle D_{ij} = \sum_{k=1}^K (x_{ki} \; – \; x_{kj})^2$
なお、同様なものですが、次のようなユークリッド距離にあります。
$\displaystyle D_{ij} = \sqrt{\sum_{k=1}^K (x_{ki} \; – \; x_{kj})^2}$
標準化ユークリッド距離(重みつきユークリッド平方距離)
変量$k$の分散を$\sigma_k$としたとき、標準化ユークリッド距離は次のように定義されます。
$\displaystyle D_{ij} = \sum_{k=1}^K (x_{ki} \; – \; x_{kj})^2 / \sigma_k$
ユークリッド平方距離に対して、分散で基準化している形になります。
なお、$1 / \sigma_k$はある種の重みであり、ユークリッド平方距離に重みをつけたものであることから、重みつきユークリッド平方距離と言われたりもします。
マハラノビスの距離
個体$i$のデータベクトルを$\boldsymbol{x}_i =(x_{1i} \, , \cdots x_{Ki})’$とし、分散共分散行列を$\Sigma$とすると、マハラノビスの距離は、次のように定義されます。
$\displaystyle D_{ij} = (\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)’ \Sigma^{-1} (\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)$
なお、$(\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)’$は$(\boldsymbol{x}_i \; – \; \boldsymbol{x}_j)$の転置行列、$\Sigma^{-1}$は$\Sigma$の逆行列です。
ミンコフスキー距離
ユークリッド距離をより一般化したものとして、ミンコフスキー距離があります。
$\displaystyle D_{ij} = \left( \sum_{k=1}^K |x_{ki} \; – \; x_{kj}|^m \right)^{1/m}$
この式から分かるように、$m=2$のときは、ユークリッド平方距離になります。
参考
木下栄蔵『わかりやすい数学モデルによる多変量解析入門』
田中豊・脇本和昌『多変量統計解析法』