はじめに
統計学や計量経済学において、「正規分布」というものは、非常に重要な概念です。
密度関数の数式表現などはややこしいのですが、正規分布からt分布や$\chi^2$分布が生まれ、推計や検定でも、これらの分布が使われたりします。
そのため、データが正規分布に従っていれば、色々と便利です。そして、この便利さを支えているのが、中心極限定理です。
中心極限定理
中心極限定理とは、
母集団が平均$\mu$、分散$\sigma$をもつとき、その$n$個の無作為標本$X_1 \, , \, X_2 \, , \quad \cdots \quad X_n$があるとします。
このとき、$\sqrt{n}(\bar{X} – \mu)$は、$N(0 , \sigma)$に分布収束する
というものです(なお、$\bar{X}$は標本平均です)。
数式で書けば、
$\sqrt{n}(\bar{X} – \mu) \overset{d}{\longrightarrow} N(0 , \sigma^2)$
となります。
そして、
$\bar{X}$は、$N(\mu , \sigma^2/n)$に近似できる
となります。
ポイント
中心極限定理については、上記の通りですが、直観的に分かりにくい感じもあるので、ポイントを説明します。
1つは、標本平均を求めたところで、その標本平均がどのような分布に従っているか分かりません。しかし、この定理により、データが多ければ、標本平均は正規分布に従うということが保証されることになります。
2つは、元々の母集団の分布がどのようなものであれ、標本平均は正規分布で近似されることを保証しています。
参考
黒住英司『計量経済学』
羽森茂之『ベーシック計量経済学』
鹿野繁樹『新しい計量経済学』