母平均が分からないときに使う不偏分散について（数式）

はじめに

　$n$個のデータ$x_1$があり、母平均を$\mu$とすると、分散$s^2$は

　　$\displaystyle s^2 = \dfrac{1}{n} \sum_{i=1}^n (x_i \; – \; \mu)^2 \quad \cdots \quad (1)$

で計算することができます。

　しかし、母平均$\mu$が未知の場合には、分散$\hat{s}^2$は、

　　$\displaystyle \hat{s}^2 = \dfrac{1}{n \; – \; 1} \sum_{i=1}^n (x_i \; – \; \bar{x})^2 \quad \cdots \quad (2)$

で計算する必要があります。

　2つの式を比べると、式としては、$n$ではなく$n-1$となっています。また、ここで$\bar{x}$は標本平均であり、$\mu$ではない形になっています。

なぜ、そうなるのか

母平均が既知の場合

　母平均が$\mu$であると分かっているときには、母分散を$\sigma^2$とすると、

　　$E(s^2) = \dfrac{1}{n} \sum_{i=1}^n E(x_i \; – \; \mu)^2 = \dfrac{1}{n} \sum_{i=1}^n \sigma^2 = \sigma^2$

となり、推計した分散$s^2$は、不偏推定量であることが分かります。

母平均が未知の場合

　母平均が分からないときには、平均については標本平均$\bar{x}$を使う必要が出てきます。
　このとき、$(1)$式において、$\mu$の代わりに標本平均$\bar{x}$を使って、分散$\tilde{s}^2$を計算してみましょう。

　　$\displaystyle \tilde{s}^2 = \dfrac{1}{n} \sum_{i=1}^n (x_i \; – \; \bar{x})^2 = \dfrac{1}{n} \sum_{i=1}^n x_i^2 \; – \; 2 \bar{x} \dfrac{1}{n} \sum_{i=1}^n x_i + \bar{x}^2 = \dfrac{1}{n} \sum_{i=1}^n x_i^2 \; – \; \bar{x}^2 \quad \cdots \quad (3)$

　ここで、$(1)(3)$式から、母平均が既知の場合と未知の場合で、分散を比較します。

　　$\displaystyle s^2 \; – \; \tilde{s}^2 = \left( \dfrac{1}{n} \sum_{i=1}^n (x_i \; – \; \mu)^2 \right) \; – \; \left( \dfrac{1}{n} \sum_{i=1}^n x_i^2 \; – \; \bar{x}^2 \right) = (\bar{x}^2 \; – \; \mu)^2 \quad \cdots \quad (4)$

から、母平均が既知の場合の分散$s^2$と母平均が未知の場合の分散$\tilde{s}^2$の差・違いは$(\bar{x}^2 \; – \; \mu)^2$であることが分かります。

　ここで、$(\bar{x}^2 \; – \; \mu)^2$について、平均をとると、

　　$\displaystyle E((\bar{x}^2 \; – \; \mu)^2) = V(\bar{x}) = \dfrac{1}{n^2} V \left( \sum_{i=1}^n x_i \right) = \dfrac{1}{n^2} \sum_{i=1}^n \sigma^2 = \dfrac{\sigma^2}{n} \quad \cdots \quad (5)$

を得ることができます。

　母平均が未知の場合の分散$\tilde{s}^2$について、$(4)(5)$式を使い、平均をとると、

　　$\displaystyle E(\tilde{s}^2) = E(s^2) \; – \; E((\bar{x}^2 \; – \; \mu)^2) = \sigma^2 \; – \; \dfrac{\sigma^2}{n} = \dfrac{n \; – \; 1}{n}\sigma^2$

が得られ、$E(\tilde{s}^2)$に$n/(n \; – \;1)$を掛けると、不偏推定量を得ることができます。

　このことから、$(3)$式に、$n/(n \; – \;1)$を掛けると、

　　$\displaystyle \hat{s}^2 = \dfrac{1}{n \; – \; 1} \sum_{i=1}^n (x_i \; – \; \bar{x})^2$

となり、$(2)$式のようになることが分かります。

参考

　　中村隆英『統計入門』

　　国沢清典・羽鳥裕久『数理統計演習』