はじめに
データ・標本について、そのデータの特徴を知りたいと思ったとき、まず思いつくのが、平均値でしょう。
ただ、平均値にもいくつもの種類があったりもしますし、平均値以外にもそのデータの特徴を知る方法があります。
そこで、データの特徴を知るための指標として、平均値・中央値・モードについて説明したいと思います。
平均値
統計学において、最初のほうに出てくるのが、平均値でしょう。
しかし、算術平均・幾何平均・調和平均というように、平均値と言っても、いくつもの種類があります。
算術平均
データを合計して、そのデータ数で割ったものを求める方法です。
$\displaystyle \bar{x} = \dfrac{1}{n} \sum_{i=1}^n x_i$
一般的に平均と言えば、この方法でしょう。
データがある値を中心にして、左右に同じように散らばっているときに適している方法です。
(逆に言えば、左右への散らばりがなければ、このデータの特徴を知る方法として、この方法はあまり相応しくないと言えます)
幾何平均
正の値のデータを掛け合わせたものを用いて、そのデータの特徴を知る方法です。
$\displaystyle \bar{x} = \left( \prod_{i=1}^n x_i \right)^{1/n}$
データが右に裾を引くような場合に望ましいされ、複利計算の倍率の平均値を求めるときに使われます。
調和平均
データ数をデータの逆数の総和で割ったものを平均と考える方法です。
$\displaystyle \bar{x} = \left. n \middle/ \sum_{i=1}^n \dfrac{1}{x_i} \right.$
経済学的にあまり使われることはないと思いますが、このようなものもあります。
中央値(メジアン)
データを小さいものから大きいものへと並び変えて、その真ん中の値を中央値とするものです。
ただ、データ数が偶数の場合には、真ん中の数字はないことになるので、データ数が奇数・偶数の場合で、定義が異なってきます。
奇数 … 並び替えたデータの中央のデータ
偶数 … 中央の2つのデータの中点
数式で表すと、データ$x_i$について、大きさ順に並び替えたものを$X_i$とすると、
$n$が奇数のとき、$\hat{X} = X_{(n+1)/2}$
$n$が偶数のとき、$\hat{X} = \dfrac{X_{n/2} + X_{n/2+1}}{2}$
となります。
一般に平均値といった場合、算術平均を求めることが多いと思いますが、データの散らばりに偏りがあるようなときには、このメジアンを使ったほうが、そのデータの特徴を知ることができたりもします。
モード(最頻値)
一組のデータにおいて、最大の度数(最も数の多い)をもつデータを最頻値とするものです。
ただ、度数がすべて1の場合には、度数を比較することはできないので、最頻値はありません。
また、複数のデータの組が同じ度数をもつときには、最頻値は複数になります。
最後に
それぞれの数値例を見たければ、「平均値・中央値・モードに関する問題」も見てください。
参考
横山真一郎・関哲朗・横山真弘『基礎と実践 数理統計学入門』