前回の記事で、母集団と標本という言葉が出てきました。
そのときに、それぞれについて
- ある現象全体のことを「母集団」
- 母集団から取り出した一部分を「標本」
と書きました。
今回は「母集団」と「標本」についてもう少し見てみます。
無限母集団と有限母集団
母集団に含まれる個々のデータのことを「母集団の要素」と言います。
母集団の要素が無限にある(観測出来る値が無限)とき、これを「無限母集団」
母集団の要素が有限(観測できる値が有限)であるとき、これを「有限母集団」
と言います。
例えば
「ある日のあるクラスにいる生徒の体重」と言えばこれは「有限母集団」です。
単に「人間の体重」と言えばこれは「無限母集団」です。なぜなら、古今東西そして未来の人間の体重までもが観測対象となるからです。
標本とは観測値の集まり
前回の記事で「標本とは一つ一つの現象を指しているのではないことに注意」と言いました。標本とは「観測した現象(値)の集まりのこと」を指します。
標本に含まれる観測値の数を標本のサイズ(大きさ)と言います。
母集団から標本を抽出する
統計学の一分野である推計統計学では、膨大なデータを持つ「母集団」からその一部を観測(標本抽出)することで母集団の性質を推測します。
標本から母集団を正しく推測するためには、母集団の特徴を標本が正しく反映している必要があります。そのための標本抽出の方法に「無作為(標本)抽出」と呼ばれる方法があります。
無作為(標本)抽出を行うには、一様乱数表と呼ばれるランダムな数列から数値を拾っていく方法が使えます。例えば、あるクラスの生徒の身長を集めたデータセット(ひとまとまりのデータ)があるとき、各データに番号を振ります。問題はどのデータを拾っていくかということですが、ここで乱数表を使って、抽出するデータの番号を拾っていくわけです。
拾い方としては、表の好きな位置を決めて、そこから上下左右好きな方向に番号を拾っていけばよいでしょう。
乱数表を使った無作為抽出では、同じ数を何度も使う「復元抽出法」と同じ数は使わない「非復元抽出法」があります。使い分けは、分析の目的によるそうなのですが、例えば「有限母集から復元抽出をすることで、無限母集団から標本抽出をしたと擬似的にみなす」ということがあるそうです。
参考文献