確率変数と確率分布
さいころを1回投げて出る目を とすると、 は から のどれかの値をとり、それぞれの値をとる確率が決まっています。このように、とりうる値のそれぞれに確率が対応している変数を確率変数といい、値と確率の対応を表にしたものを確率分布といいます。
確率分布の表では、確率をすべて足すと必ず になります。これは検算にも使える大切な性質です。
二項分布
「さいころを 回投げて の目が出る回数」のように、同じ試行を独立に 回くり返し(反復試行)、あることがらが起こる回数を とします。 回の試行でそのことがらが起こる確率を 、起こらない確率を とすると
このような確率分布を二項分布といい、 で表します。
二項分布は「回数を数える」場面で必ず現れる、統計的な推測の主役です。あとで学ぶように、 が大きいときの二項分布は正規分布で近似でき、これが推定や検定の理論の土台になります。
正規分布
身長や測定誤差のように、連続的な値をとる確率変数を連続型確率変数といいます。連続型確率変数では、確率は曲線 (確率密度関数)と 軸の間の面積で表され、曲線の下の全体の面積は です。
その中で最も重要なのが正規分布です。平均 、標準偏差 の正規分布を と書きます。そのグラフ(正規分布曲線)は、 を軸とした左右対称の釣り鐘型で、平均から離れるほど確率が小さくなります。
正規分布表から読み取れる代表的な値は 、、 などです。曲線は左右対称なので、 を使えば、どんな範囲の確率もこの表から組み立てられます。
標本調査と推定
調べたい対象全体を母集団、そこから抜き出した一部を標本といいます。全部を調べる全数調査に対し、標本だけを調べて全体を推測するのが標本調査です。標本にかたよりが出ないよう、くじ引きのように偶然に任せて選ぶことを無作為抽出といいます。
母集団の平均を母平均 、標準偏差を母標準偏差 といい、標本 の平均 を標本平均といいます。
仮説検定
「このコインは表が出やすいのではないか?」という主張を、データを使って統計的に判断する方法が仮説検定です。
考え方は背理法に似ています。主張したいことと反対の仮説(帰無仮説 、たとえば「コインは公正で表の確率は 」)をいったん正しいと仮定し、その仮定のもとで実際に観察されたデータが「めったに起こらないほど極端」であれば、仮定 の方を疑って捨てる(棄却する)のです。主張したい側の仮説を対立仮説 といいます。
注意したいのは、 が棄却されなかったときの結論です。それは「 が正しいと証明された」のではなく、「 を否定するだけの証拠が得られなかった」という意味にすぎません。また、有意水準 の検定では、本当は が正しいのに誤って棄却してしまう確率が最大 あることも頭に入れておきましょう。