はじめに
度数分布とは、ある統計データが与えられたとき、階級ごとにそのデータを分けて、階級ごとの頻度を知るためのものです。
例えば、年間所得において、100万円以下はどのぐらいいて、200~300万円はどのぐらいいるかなどを、整理するために使われます。
統計を扱うにあたり、基本的な手法ですが、改めて説明します。
度数分布
度数分布は、次のような表を計算することになります。
階級:データを区分けするための区間($a_i \sim b_i$)
階級値:階級の中点($m_i$)
度数:当該階級に属するデータ数($f_i$)
相対度数:全データに対する当該度数の割合($f_i / n$)
累積度数:低い階級から度数を足し合わせていった累積($F_i$)
累積相対度数:全データに対する当該累積度数の割合($F_i/n$)
階級 | 階級値 | 度数 | 相対度数 | 累積度数 | 累積相対度数 |
---|---|---|---|---|---|
$a_1 \sim b_1$ | $m_1$ | $f_1$ | $f_1 / n$ | $F_1$ | $F_1/n$ |
$a_2 \sim b_2$ | $m_2$ | $f_2$ | $f_2 / n$ | $F_2$ | $F_2/n$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$a_i \sim b_i$ | $m_i$ | $f_i$ | $f_i / n$ | $F_i$ | $F_i/n$ |
$\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ | $\vdots$ |
$a_k \sim b_k$ | $m_k$ | $f_k$ | $f_k / n$ | $F_k$ | $F_k/n$ |
計 | - | $n$ | $1$ | - | - |
基本は、階級と度数で、これにより各階級にどれだけの数があるかが分かります。そして、度数を足合わせていくと、累積度数が出来上がります。
相対度数・累積相対度数は、度数だけでは数を表しているだけなので分かりにくいため、それぞれの階級が全体に対して、どれだけあるかを知るために、利用されます。
階級値は、階級の中点で、
$m_i = \dfrac{a_i + b_i}{2}$
で計算されます。直観的にわかるように、真ん中の値を計算していることになります(更に、ちょっと細かく言うと、データがその階級の中で、一様分布に従って存在しているとして、一様分布の平均となっています)。
そして、この階級値は、平均や分散などを計算するにあたって利用されます。
データから度数分布を作成する場合には、すべてのデータがあるので、それらから平均や分散を計算することが可能ですが、度数分布しかないときには、この階級値を使います。
平均:$\displaystyle \bar{x} = \dfrac{1}{n} \sum_{j=1}^k m_j f_j$
分散:$\displaystyle s^2 = \dfrac{1}{n} \sum_{j=1}^k f_j (m_j \; – \; \bar{x})^2$
最後に
度数分布は、統計において、基本的な手法の1つと言えるでしょう。
しかし、経済学においては、あまり使う機会はあまりないかもしれません。
ただ、あるデータについて、何らかの格差を知りたいといったとき、ジニ係数を測定する必要があり、このときには度数分布が使われます。
参考
中村隆英『統計入門』