スポンサーリンク

スピアマンの順位相関係数について

スポンサーリンク
 
投稿統計学初級
順位に関するデータについて、相関の有無を知りたいときに使われるスピアマンの順位相関係数について、説明しています。
スポンサーリンク
スポンサーリンク
スポンサーリンク

はじめに

 ある2種類のデータがあるときに、それらがデータ間で関係しているのかどうかを知りたいときがあります。
 例えば、ある高校生のクラスを考えたとき、勉強量とテストの点数は、本当に関係ししているのかといった具合です。

 このときには、一般的には、(ピアソンの)「相関係数」を使えば、関係があれば1に近い値をとり、逆に反対の値の動きならば、-1の値に近づくなど、2つの種類のデータの関係を指標化できます。

 ところで、この2種類のデータが順位のデータであるときに、使うことができるものとして、「スピアマンの順位相関係数」があります。

 このスピアマンの順位相関係数について、説明します。

スピアマンの順位相関係数

 $x_i$と$y_iの$2種類の順位データがあるとします。データ数が$n$ならば、

  $1 \le x_i \le n \quad (i =1 \, , \, \cdots \, , \, n)$

  $1 \le y_i \le n \quad (i =1 \, , \, \cdots \, , \, n)$

といった自然数のデータです。

 この2つのデータについて、差をとって、

  $d_i = x_i \, – \, y_i$

とすると、スピアマンの順位相関係数$\rho$は、次のようになります。

  $\rho = 1 \, – \, \dfrac{\displaystyle 6\sum_{i=1}^n d_i^2}{n(n^2 \, – \, 1)} \quad \cdots \quad (*)$

 AからEまでの5人がおり、英語、数学についての点数の順位のデータが、次のようになったとします。

ABCDE
英語25341
数学34125

 上記の式のように、差を英語と数学の順位について、差をとると(計算上、差の2乗も計算)、

ABCDE
英語25341
数学34125
-1122-4
差の2乗114416

となります。

 これを上記の式$(*)$に当てはまると、

  $\rho = 1 \, – \, \dfrac{\displaystyle 6 (1 + 1+ 4 + 4 + 16)}{5(5^2 \, – \, 1)} = 0.3$

であり、スピアマンの順位相関係数は、0.3であることがわかります。

スピアマンの順位相関係数の値の範囲

 スピアマンの順位相関係数は、通常の相関係数と同様に、1から-1の値をとります。
 念のため、これを証明しておきましょう。

完全一致

 順位が完全に一致するときには、スピアマンの順位相関係数は1となります。
 一致するときには、

  $d_i = x_i \, – \, y_i = 0$

なので、$(*)$式に$d_i$を代入すると、

  $\rho = 1 \, – \, \dfrac{\displaystyle 6\sum_{i=1}^n 0}{n(n^2 \, – \, 1)} = 1$

というように、1になります。

逆順位

 完全に逆順位になるときには、

  $x_i + y_i = n + 1$

なので、

  $\displaystyle \sum_{i=1}^n d_i^2 = \sum_{i=1}^n (x_i \, – \, y_i)^2 = \sum_{i=1}^n [2 x_i \, – \, (n+1)]^2 $

となります。

 ここで、$x_i$は並び替えると$1 \, , \, \cdots \, , \, n$となることから、和の公式から

  $\displaystyle \sum_{i=1}^n x_i^2 = 1^2 + 2^2 + \cdots + n^2 = \dfrac{n(n+1)(2n+1)}{6}$

  $\displaystyle \sum_{i=1}^n x_i = 1 + 2 + \cdots + n = \dfrac{n(n+1)}{2}$

  $\displaystyle \sum_{i=1}^n 1 = 1 + 1 + \cdots + 1 = n$

という式を使うと、

  $\displaystyle \sum_{i=1}^n d_i^2 = \dfrac{n(n^2 \, – \, 1)}{3}$

なので、$(*)$式に代入すると、

  $\rho = 1 \, – \, \dfrac{\displaystyle 6 n(n^2 \, – \, 1)/3}{n(n^2 \, – \, 1)} = -1$

となり、-1となります。

スピアマンの順位相関係数の特徴

 通常の(ピアソンの)相関係数と比べて、スピアマンの順位相関係数は次のような特徴があります。

 1つは、外れ値や異常値の影響を受けにくいという点があります。
 通常の相関係数では、外れ値があると、その値の影響を受けますが、スピアマンの順位相関係数では、あくまでも順位なので、外れ値は存在しないことになります。

 2つは、通常の相関係数は、非線形なときには、当てはまり悪くなりますが、スピアマンの順位相関係数では、順位を扱っているので、そのような問題は生じません。

 例えば、次のようなデータがあったとき($y=x^5$)、正の相関があることは間違いないのですが、相関係数は、0.87となってしまいます($x$のベキ乗を大きくすると、より相関係数が下がります)。
 しかし、スピアマンの順位相関係数ではこのような問題は生じません。

ABCDE
x12345
y13224310243125

 3つは、どのようなデータも順位をとることができるので、スピアマンの順位相関係数を使うことはできるでしょうが、順位するので、逆に、情報量が少なくなってしまうという問題があります。
 逆に言えば、情報量が少ないからこそ、外れ値や異常値を避けることができるとも言えます。

参考

  中村隆英『統計入門

  加納悟・浅子和美・竹内明香『入門 経済のための統計学

スポンサーリンク
タイトルとURLをコピーしました