このシリーズでは、僕が統計学を学んだ内容をまとめていきます。と同時にPythonを使ってグラフを描いたりしていく予定です。
今回は、Pythonは特に使いません。
最初は、統計学の大きな考え方をまとめてみます。
統計学とは
「統計学で取り扱うすべての現象は、確率分布をする。これらの現象について取り扱うときには、現象全体を取り扱うのは難しいので、その一部分から現象全体についての分析や推測を行う」
統計学の用語では
- ある現象全体のことを「母集団」
- 母集団から取り出した一部分を「標本」(後ほど、書くと思いますが、とりあえず標本とは一つ一つの現象を指しているのではないことに注意)
といいます。
確率分布、とありますが現状意味が良く分からないので、ひとまず「確率」と「分布」に分けてみます。
確率とは
前提として、確率を使わないと統計学の話ができないそうです。仕方ありません。
確率とは「ある現象が起こる確かさの程度のこと」
絶対起こるなら100%だし、絶対起こらないなら0%。でも現実問題そんな白黒はっきりしないから、その間の50%とか30%とか75%とか色んな確率がある。
ところで、統計学ではこの確率を表現するのに%ではなく少数で表現します。つまり、1.00が100%、0.5が50%、0.01が1%という感じです。
ある現象の確率を記号で表すには、P()=0.○○〇という表現が使われます。
書き方は
P(ある現象)=ある現象が起こる確率
例1) P(明日は雨になる)=0.5 ⇒ 明日は雨になる確率が0.5
*Pはprobability(確率)の頭文字です。
分布とは
「ある現象が分布する」とは「ある現象全体を考えたときにそれぞれの現象がさまざまな値をとること」を意味します。
例えば、年間に生まれる赤ちゃんの人数は年ごとにさまざまですから「赤ちゃんの出生数は分布します」し、お店の売り上げは日ごとに異なりますから「お店の売り上げは分布する」と言えるわけです。
では確率分布とは何か
僕もなんどか本を読んだのですが、まだいまいち分かりません。
単純な話、下にサイコロの例を書きましたが現実のサイコロの目が出る確率は均等に1/6ではありません。重心が偏っていればある目が出る確率は大きくなるはずです。上で分布とは「ある現象がさまざまな値をとること」と書きましたが、確率が均等ではないということは「ある現象がさまざまな値をとる」ことを意味しているのではないでしょうか。
とりあえず単純に確率分布とは「確率が分布しているんだろうなぁ」と思っておくことにしましょう。
ですが確率分布というものを扱うために次のような約束があるので、覚えておくべきでしょう。
- 確率の値は0と1の間をとる。つまり確率の値はマイナスにはならないし、1よりも大きくなることはない。
- ある現象全体に関するすべての確率は合計すると1になる。
例えば、「理想的なサイコロを投げるときに出る目」という現象全体を考えてみます。このとき、1が出る確率から6が出る確率まで等しく1/6になります。すべての確率を足し合わせると1.0になります。
参考文献