はじめに
いくつかのデータがあるとき、これらのデータの特徴を簡単に知りたいと思ったときに使われるのが、「平均」です。
例えば、30人が体重測定をしたとしましょう。この30人の体重について、その特徴を知りたいならば、平均をとれば、この30人の体重の傾向が1つの指標にまとめられ、分かりやすくなります。
そして、この特徴を知るために指標として、平均以外に「メジアン」(メディアン)があります。
このメジアンについて、説明します。
メジアン(メディアン)
メジアンとは、中央値ともいわれ、データを小さい値から大きい値までを並べたときに、その真ん中に来る値のことです。
例えば、
5、2、5、2、1
のような5つの値があったとき、これを並び替えると、
1、2、2、5,5
であり、メジアンはこの5つの値の真ん中の値の「2」になります。
また、データ数が奇数の場合には、真ん中の値がはっきりわかりますが、データ数が偶数のときには、真ん中のデータはありません。
例えば、
5、2、5、2、1、4
のような6つの値があったとき、これを並び替えると、
1、2、2、4,5,5
となりますが、真ん中の値は、左から3番目の「2」と右から3番目の「4」の間が真ん中になります。
このときには、2と4の間である「3」がメジアンになります。
数式における定義
メジアンは以上のような概念ですが、数式で定義をしてみましょう。
$n$個のあるデータにについて、小さい順番から並べなおしたものを$x_1 , \, \cdots \, , x_n$とすると、メジアン$M$は次のように定義されます。
$n$が奇数($n = 2p +1$)のとき、$M = x_{p+1}$
$n$が偶数($n = 2p$)のとき、$M = (x_p + x_{p+1})/2$
メジアンの特徴
メジアンは、平均と似たような概念ですが、次のような特徴があります。
1つは、メジアンはデータの中心を表しており、ある意味、そのデータの特徴を示しています。この点では、平均と似たような感じになっています。
2つは、平均よりも、並び替えたものをベースにしているので、分かりやすい面があります。
データ数が偶数の場合には、最終的には平均をするので、どうしようもありませんが、奇数ならば、その中央の値のものを特定することができます。例えば、いくつもの体重データをもとに考えたとき、メジアンを求めると、「〇〇さんがメジアン」といったように、メジアンにいる人を特定することができます。
3つは、平均に比べて、異常値や外れ値の影響を受けにくい面があります。
例えば、
15、2、5、2、1
といったデータがあったとき、平均をとると、
(15+2+5+2+1)÷5 = 5
となりますが、明らかに最初の「15」という値により、平均は大きな影響を受けています。
しかし、メジアンにおいては、データを並び替えると、
1,2,2,5,15
であり、「2」がメジアンになります。
4つは、異常値や外れ値の話と似ていますが、データの分布に偏りがあるときにも、データの特徴を知る上で、メジアンのほうが実態を表していることがあります。
例えば、ある国の平均所得が500万円といった場合に、少数の大金持ちの所得も含まれているので、実際の感覚の「平均」とは乖離が生じる可能性が高いです。このようなときには、メジアンを見たほうが、この国の真の平均的な所得の水準が見えてきます。
5つ、平均とメジアンは異なったものですが、分布の形が単峰(分布の山1つ)であり、その分布が対称ならば、平均とメジアンは一致します。
参考
中村隆英『統計入門』
加納悟・浅子和美・竹内明香『入門 経済のための統計学』