はじめに
統計学を学ぶと必ず出てくるのが、「母集団」と「標本」という言葉です。
ただ、これらを学ぶとき、数式が出てきたり、計算が行われるわけでもないので、どうしてもお座なりになってしまいがちのような気がします。統計学の教科書を見ると、最初に出てくるのではなく、途中から出てくるのも、原因かもしれません。
そして何となく、母集団を元々のデータ、標本をその一部ぐらいに理解している方も多いのではと思います。
しかし、母集団と標本という概念は、統計学の基本的な考えを見る上で、非常に重要で、検定論などを学ぶときにも、この概念を理解していないと、何をやっているか分からなくなってしまいます。
ですので、母集団と標本について、分かりやすく説明したいと思います。
統計学の目的
統計学の目的は何でしょうか。
平均や分散を知りたい、データの特性を知りたいなど、色々とあるかもしれませんが、次の一言に尽きるのではないかと思います。
「ある集団のデータ的な特性を知りたい」
集団があったとき、その内部の個々の主体についてみていても、その集団がどのような集団なのか分かりません。しかし、何らかの共通項を見出すことができれば、その集団そのものがどのような特性を有しているかを知ることができます。
統計学の目的としては、データを通じて、このような共通項を知りたいことになるでしょう。
母集団と標本
特性を知りたい集団のことを「母集団」と言いますが、現実には、母集団すべてのデータを集めることは、非常に困難です。
すべてのデータを集めることができても、一部でデータのとり方が間違ったりしたら、それは真の母集団の特性を表しているとは言えないでしょう。
通常は、母集団の中から、一部のデータを取り出して、元々の母集団の特性を推測することになります。
そして、その一部のデータのことを「標本」と言います。
以上までは、統計学を学んだ方ならば、何となく理解している部分ではないかと思います。
しかし、このことから、重要なポイントがあります。
ポイント
1つは、母集団の特性と標本から得られた特性は、一致しないということです。
母集団の特性 ≠ 標本の特性
直観的に考えれば分かると思いますが、標本はあくまでも、母集団の一部なので、それが一致することは考えにくいでしょう。
2つは、誰も、母集団の真の特性は知りえないということです。人が得られるのは、母集団から得られた一部の標本であり、母集団の真の特性を知ることは不可能です。
上記でも述べたように、母集団すべてのデータを集めれたとしても、何らかのミスがあって、集めたデータが真の特性かどうかは分かりません。
このことから、
「統計学では、集団の特性を知ることを目的としているが、実際は、真の特性は分かりえない」
ということになります。
しかしそれではどうしようもないので、
「真の特性は分からないが、真の特性らしい状態はどうなのか、尤もらしい形はどうなのか」
を一生懸命、分析することになります。
そして、その基準として、出てくるのが、検定です。
「真の特性は分からないが、ある検定をクリアすれば、標本の特性は、真の特性に近い・見なせる」
としています。
ちょっとした例
例えていえば、ある人に対して、第三者からその人が「いい人」であるかどうかを判断する場合を考えてみましょう。
第三者からすれば、その人が本当に「いい人」であるかどうかは分かりません。いつも笑顔でいても、人のいないところで、悪行を働いているかもしれません。
しかし、その人が「いい人」であるかどうかを判断したい場合は、どうするでしょうか。
その人の一部の行動・所作などを見て、その人が「いい人」であるかどうかを判断するでしょう。より厳密に知りたければ、
「多くの人がいい人と言ってる場合は、いい人と言える」
「いつもニコニコしているならば、きっといい人」
などのルールを作って、判断することになります。
実は、同じようなことを、統計学でも行っていることになります。
まとめ
母集団・標本の考えから、検定についても、書きました。
どうしても、母集団・標本について、何となく理解している程度の方が多いように思いますし、検定についてもとりあえずやっておく必要があるぐらいに思っている方もいるのではないでしょうか。
しかし、ここには深い意味合いがあり、ある種の哲学的な話も含んでいることを理解してほしいと思います。
「母集団の真の特性は分かりえない」
「しかし、どうやったら、標本から母集団の特性を推し量ることができるのか」
「推し量り方のルールとして、検定という考えがある」
といったところです。