はじめに
統計学を学ぶとき、最初のほうに出てくるのが、「母集団」と「標本」(サンプル)の話です。
特に数式が出てくるわけでもなく、そういうものがあるんだぐらいに思っている方も多いでしょう。
どうしても、なおざりにしがちな部分ですが、基本であり、ある意味、この部分をしっかりと押さえておかないと、その後で勘違いしたり、誤りを犯してしまうので、しっかりとこの2つについて、学んでおきましょう。
母集団と標本
統計的に分析しようとしたとき、ある集団を対象として、データを見ていくことになります。そして、この集団のことを「母集団」といい、その母集団からとられたデータを「標本」(サンプル)と言います。
ある意味、母集団と標本の話については、これだけの話ですが、ここに統計学の肝があります。
そもそも、私たちは神ではないので、母集団について、真実の状況については知りえません。
データが多くあるといっても、それらのデータは母集団の特徴の一部で、すべてではありません。
ただ、母集団から得られる一部のデータを、標本(サンプル)として採って、その標本を見て、母集団がどのような集団なのかを推測することになります。
母集団と標本に掛かる論点
統計学では、この推測ができるだけ真実に近い姿を表してくれるだろうという方法を選んで、母集団がどのようなものかを調べています。
この点で、統計学においては、どのような方法がよいかが、どうしても焦点と当たりがちであり、勉強する主眼もそこにあるでしょう。
しかし、そもそも母集団と標本においては、いくつかの論点があります。
無限母集団と有限母集団
母集団と言っても、その集団を構成している数が、無限であるのか、有限であるのかで異なってきます。
例えば、ある会社の会社員数を母集団とすれば、有限ですが、無限にサイコロを振る場合などは、無限になります。
母集団が無限であるときには、そのすべてのデータを得ることは不可能で、どこかで打ち止めが必要になります。それゆえ、真実の値には、理論的には別として、原理的には近づくことはできません。
逆に、有限母集団の場合には、有限ゆえに、数が少ないとどうしても、標本数も少なくなるので、真実の値を推測しにくくなります。
有意抽出と無作為抽出
母集団の一部から、標本を抽出するわけですが、このやり方として、有意抽出と無作為抽出(ランダムサンプリング)の2つに大別されます。
有意抽出とは、標本の選び方として、何らかの属性を考慮して、その代表的なものを選び出すというものになります。逆に、無作為抽出は、属性などを考えずに、ランダムに標本を選び出すという方法です。
一般的には、有意抽出では恣意性が発生するので好ましいとは言えず、無作為抽出が大事とされることが多いです。
しかし、ある集団を考えたとき、それをすべて同じ集団のものとして、認めていいのかという問題があります。例えば、学生と言っても、性別で異なったり、年齢も違ったりするでしょう。そうすると、それらを一緒に抽出、標本を取り出しても、その母集団について考えるときには、誤りを導くでしょう。
これには、有名な例として、1936年のアメリカの大統領選があります。
大統領選にあたり、雑誌社がランダムでアンケート調査を行いました。その結果、共和党のランドン氏が大差で勝つという結果が導き出されました。しかし結果は、民主党のルーズベルト氏が圧倒的な勝利をおさめます。
ランダムで調査をしたという点では、正しい方法のように見えます。しかし、この調査には問題がありました。アンケートを電話で行ったのですが、当時のアメリカでは電話を持っているのは富裕層に限られていました。
すなわち、ランダムで調査を行ったのですが、実は、富裕層の調査しか行っていなかったという点です。
このように、標本をランダムで取り出すのは大事ですが、その方法などを含めて、母集団を考えないと、推測を誤ってしまいます。
参考
中村隆英『統計入門』
加納悟・浅子和美・竹内明香『入門 経済のための統計学』