はじめに
ある2種類のデータがあるときに、それらがデータ間で関係しているのかどうかを知りたいときがあります。
例えば、ある高校生のクラスを考えたとき、勉強量とテストの点数は、本当に関係ししているのかといった具合です。
このときには、一般的には、(ピアソンの)「相関係数」を使えば、関係があれば1に近い値をとり、逆に反対の値の動きならば、-1の値に近づくなど、2つの種類のデータの関係を指標化できます。
ところで、この2種類のデータが順位のデータであるときに、使うことができるものとして、「スピアマンの順位相関係数」があります。
このスピアマンの順位相関係数について、説明します。
スピアマンの順位相関係数
$x_i$と$y_iの$2種類の順位データがあるとします。データ数が$n$ならば、
$1 \le x_i \le n \quad (i =1 \, , \, \cdots \, , \, n)$
$1 \le y_i \le n \quad (i =1 \, , \, \cdots \, , \, n)$
といった自然数のデータです。
この2つのデータについて、差をとって、
$d_i = x_i \, – \, y_i$
とすると、スピアマンの順位相関係数$\rho$は、次のようになります。
$\rho = 1 \, – \, \dfrac{\displaystyle 6\sum_{i=1}^n d_i^2}{n(n^2 \, – \, 1)} \quad \cdots \quad (*)$
例
AからEまでの5人がおり、英語、数学についての点数の順位のデータが、次のようになったとします。
A | B | C | D | E | |
---|---|---|---|---|---|
英語 | 2 | 5 | 3 | 4 | 1 |
数学 | 3 | 4 | 1 | 2 | 5 |
上記の式のように、差を英語と数学の順位について、差をとると(計算上、差の2乗も計算)、
A | B | C | D | E | |
---|---|---|---|---|---|
英語 | 2 | 5 | 3 | 4 | 1 |
数学 | 3 | 4 | 1 | 2 | 5 |
差 | -1 | 1 | 2 | 2 | -4 |
差の2乗 | 1 | 1 | 4 | 4 | 16 |
となります。
これを上記の式$(*)$に当てはまると、
$\rho = 1 \, – \, \dfrac{\displaystyle 6 (1 + 1+ 4 + 4 + 16)}{5(5^2 \, – \, 1)} = 0.3$
であり、スピアマンの順位相関係数は、0.3であることがわかります。
スピアマンの順位相関係数の値の範囲
スピアマンの順位相関係数は、通常の相関係数と同様に、1から-1の値をとります。
念のため、これを証明しておきましょう。
完全一致
順位が完全に一致するときには、スピアマンの順位相関係数は1となります。
一致するときには、
$d_i = x_i \, – \, y_i = 0$
なので、$(*)$式に$d_i$を代入すると、
$\rho = 1 \, – \, \dfrac{\displaystyle 6\sum_{i=1}^n 0}{n(n^2 \, – \, 1)} = 1$
というように、1になります。
逆順位
完全に逆順位になるときには、
$x_i + y_i = n + 1$
なので、
$\displaystyle \sum_{i=1}^n d_i^2 = \sum_{i=1}^n (x_i \, – \, y_i)^2 = \sum_{i=1}^n [2 x_i \, – \, (n+1)]^2 $
となります。
ここで、$x_i$は並び替えると$1 \, , \, \cdots \, , \, n$となることから、和の公式から
$\displaystyle \sum_{i=1}^n x_i^2 = 1^2 + 2^2 + \cdots + n^2 = \dfrac{n(n+1)(2n+1)}{6}$
$\displaystyle \sum_{i=1}^n x_i = 1 + 2 + \cdots + n = \dfrac{n(n+1)}{2}$
$\displaystyle \sum_{i=1}^n 1 = 1 + 1 + \cdots + 1 = n$
という式を使うと、
$\displaystyle \sum_{i=1}^n d_i^2 = \dfrac{n(n^2 \, – \, 1)}{3}$
なので、$(*)$式に代入すると、
$\rho = 1 \, – \, \dfrac{\displaystyle 6 n(n^2 \, – \, 1)/3}{n(n^2 \, – \, 1)} = -1$
となり、-1となります。
スピアマンの順位相関係数の特徴
通常の(ピアソンの)相関係数と比べて、スピアマンの順位相関係数は次のような特徴があります。
1つは、外れ値や異常値の影響を受けにくいという点があります。
通常の相関係数では、外れ値があると、その値の影響を受けますが、スピアマンの順位相関係数では、あくまでも順位なので、外れ値は存在しないことになります。
2つは、通常の相関係数は、非線形なときには、当てはまり悪くなりますが、スピアマンの順位相関係数では、順位を扱っているので、そのような問題は生じません。
例えば、次のようなデータがあったとき($y=x^5$)、正の相関があることは間違いないのですが、相関係数は、0.87となってしまいます($x$のベキ乗を大きくすると、より相関係数が下がります)。
しかし、スピアマンの順位相関係数ではこのような問題は生じません。
A | B | C | D | E | |
---|---|---|---|---|---|
x | 1 | 2 | 3 | 4 | 5 |
y | 1 | 32 | 243 | 1024 | 3125 |
3つは、どのようなデータも順位をとることができるので、スピアマンの順位相関係数を使うことはできるでしょうが、順位するので、逆に、情報量が少なくなってしまうという問題があります。
逆に言えば、情報量が少ないからこそ、外れ値や異常値を避けることができるとも言えます。
参考
中村隆英『統計入門』
加納悟・浅子和美・竹内明香『入門 経済のための統計学』