みんなの教科書GitHub

数学B2

統計的な推測

確率変数、二項分布と正規分布、区間推定・仮説検定を学びます。

確率変数と確率分布

さいころを1回投げて出る目を XX とすると、XX11 から 66 のどれかの値をとり、それぞれの値をとる確率が決まっています。このように、とりうる値のそれぞれに確率が対応している変数を確率変数といい、値と確率の対応を表にしたものを確率分布といいます。

確率分布の表では、確率をすべて足すと必ず 11 になります。これは検算にも使える大切な性質です。

期待値・分散・標準偏差

確率変数 XX が値 x1,x2,,xnx_1, x_2, \dots, x_n をそれぞれ確率 p1,p2,,pnp_1, p_2, \dots, p_n でとるとき

期待値(平均) E(X)=x1p1+x2p2++xnpnE(X) = x_1 p_1 + x_2 p_2 + \cdots + x_n p_n

分散 V(X)=E((Xm)2)=E(X2)(E(X))2V(X) = E\left((X-m)^2\right) = E(X^2) - \left(E(X)\right)^2 (ただし m=E(X)m = E(X))

標準偏差 σ(X)=V(X)\sigma(X) = \sqrt{V(X)}

分散の計算では「(22乗の期待値)-(期待値の22乗)」の形が圧倒的に計算しやすく、実戦ではほぼこちらを使います。

例題 1(さいころの期待値と分散)

1個のさいころを投げて出る目を XX とするとき、E(X)E(X)V(X)V(X) を求めよ。

解き方

XX11 から 66 の値をそれぞれ確率 16\dfrac{1}{6} でとるので

E(X)=1+2+3+4+5+66=216=72E(X) = \frac{1+2+3+4+5+6}{6} = \frac{21}{6} = \frac{7}{2}

次に X2X^2 の期待値を求めると

E(X2)=12+22+32+42+52+626=916E(X^2) = \frac{1^2+2^2+3^2+4^2+5^2+6^2}{6} = \frac{91}{6}

よって分散は

V(X)=E(X2)(E(X))2=916(72)2=1821214712=3512V(X) = E(X^2) - \left(E(X)\right)^2 = \frac{91}{6} - \left(\frac{7}{2}\right)^2 = \frac{182}{12} - \frac{147}{12} = \frac{35}{12}

aX+b の期待値・分散・標準偏差

aabb を定数とするとき

E(aX+b)=aE(X)+bE(aX+b) = aE(X) + b

V(aX+b)=a2V(X)V(aX+b) = a^2 V(X)

σ(aX+b)=aσ(X)\sigma(aX+b) = |a|\,\sigma(X)

分散は「散らばり具合」なので、全体を bb だけ平行移動しても変わりません。一方、aa 倍すると散らばりの幅が a|a| 倍になるため、その22乗である分散は a2a^2 倍になります。

確率変数の和

2つの確率変数 XXYY について、和の期待値はいつでも

E(X+Y)=E(X)+E(Y)E(X+Y) = E(X) + E(Y)

さらに XXYY が互いに独立(一方の結果が他方に影響しない)ならば

V(X+Y)=V(X)+V(Y),E(XY)=E(X)E(Y)V(X+Y) = V(X) + V(Y), \quad E(XY) = E(X)E(Y)

期待値の式は独立でなくても成り立ちますが、分散の式は独立のときだけ成り立つ点に注意しましょう。

二項分布

「さいころを 1010 回投げて 11 の目が出る回数」のように、同じ試行を独立に nn 回くり返し(反復試行)、あることがらが起こる回数を XX とします。11 回の試行でそのことがらが起こる確率を pp、起こらない確率を q=1pq = 1-p とすると

P(X=r)=nCrprqnr(r=0,1,2,,n)P(X = r) = \,{}_n \mathrm{C}_r \, p^r q^{n-r} \quad (r = 0, 1, 2, \dots, n)

このような確率分布を二項分布といい、B(n, p)B(n,\ p) で表します。

二項分布の期待値と分散

XX が二項分布 B(n, p)B(n,\ p) に従うとき(q=1pq = 1-p)

E(X)=np,V(X)=npq,σ(X)=npqE(X) = np, \quad V(X) = npq, \quad \sigma(X) = \sqrt{npq}

nn 回中、平均して npnp 回起こる」という直感どおりの結果です。定義から計算すると大変ですが、この公式を使えば一瞬で求められます。

例題 2(二項分布)

1個のさいころを3回投げるとき、11 の目が出る回数を XX とする。P(X=1)P(X=1)E(X)E(X)V(X)V(X) を求めよ。

解き方

XX は二項分布 B(3, 16)B\left(3,\ \dfrac{1}{6}\right) に従います。

P(X=1)=3C1(16)1(56)2=3162536=2572P(X=1) = \,{}_3 \mathrm{C}_1 \left(\frac{1}{6}\right)^1 \left(\frac{5}{6}\right)^2 = 3 \cdot \frac{1}{6} \cdot \frac{25}{36} = \frac{25}{72}

期待値と分散は公式から

E(X)=316=12,V(X)=31656=512E(X) = 3 \cdot \frac{1}{6} = \frac{1}{2}, \quad V(X) = 3 \cdot \frac{1}{6} \cdot \frac{5}{6} = \frac{5}{12}

二項分布は「回数を数える」場面で必ず現れる、統計的な推測の主役です。あとで学ぶように、nn が大きいときの二項分布は正規分布で近似でき、これが推定や検定の理論の土台になります。

正規分布

身長や測定誤差のように、連続的な値をとる確率変数を連続型確率変数といいます。連続型確率変数では、確率は曲線 y=f(x)y = f(x)(確率密度関数)と xx 軸の間の面積で表され、曲線の下の全体の面積は 11 です。

その中で最も重要なのが正規分布です。平均 mm、標準偏差 σ\sigma の正規分布を N(m, σ2)N(m,\ \sigma^2) と書きます。そのグラフ(正規分布曲線)は、x=mx = m を軸とした左右対称の釣り鐘型で、平均から離れるほど確率が小さくなります。

標準化

確率変数 XX が正規分布 N(m, σ2)N(m,\ \sigma^2) に従うとき

Z=XmσZ = \frac{X - m}{\sigma}

とおくと、ZZ は標準正規分布 N(0, 1)N(0,\ 1) に従います。この変形を標準化といいます。

どんな正規分布の問題も、標準化すれば N(0, 1)N(0,\ 1) の話に直せるので、正規分布表(標準正規分布での確率 P(0Zz)P(0 \le Z \le z) をまとめた表)が1枚あればすべての確率が計算できます。

正規分布表から読み取れる代表的な値は P(0Z1)=0.3413P(0 \le Z \le 1) = 0.3413P(0Z2)=0.4772P(0 \le Z \le 2) = 0.4772P(0Z1.96)=0.475P(0 \le Z \le 1.96) = 0.475 などです。曲線は左右対称なので、P(Z0)=0.5P(Z \le 0) = 0.5 を使えば、どんな範囲の確率もこの表から組み立てられます。

例題 3(正規分布の確率)

確率変数 XX が正規分布 N(50, 102)N(50,\ 10^2) に従うとき、P(50X65)P(50 \le X \le 65) を求めよ。ただし P(0Z1.5)=0.4332P(0 \le Z \le 1.5) = 0.4332 とする。

解き方

Z=X5010Z = \dfrac{X - 50}{10} と標準化します。

X=50X = 50 のとき Z=0Z = 0X=65X = 65 のとき Z=655010=1.5Z = \dfrac{65-50}{10} = 1.5 なので

P(50X65)=P(0Z1.5)=0.4332P(50 \le X \le 65) = P(0 \le Z \le 1.5) = 0.4332

二項分布の正規近似

XX が二項分布 B(n, p)B(n,\ p) に従うとき、nn が十分大きければ、XX は近似的に正規分布

N(np, npq)(q=1p)N(np,\ npq) \quad (q = 1-p)

に従うとみなせます。つまり Z=XnpnpqZ = \dfrac{X - np}{\sqrt{npq}} は近似的に N(0, 1)N(0,\ 1) に従います。「回数の分布」を正規分布表で計算できるようになる、とても強力な近似です。

標本調査と推定

調べたい対象全体を母集団、そこから抜き出した一部を標本といいます。全部を調べる全数調査に対し、標本だけを調べて全体を推測するのが標本調査です。標本にかたよりが出ないよう、くじ引きのように偶然に任せて選ぶことを無作為抽出といいます。

母集団の平均を母平均 mm、標準偏差を母標準偏差 σ\sigma といい、標本 X1,X2,,XnX_1, X_2, \dots, X_n の平均 X=X1+X2++Xnn\overline{X} = \dfrac{X_1 + X_2 + \cdots + X_n}{n} を標本平均といいます。

標本平均の分布

母平均 mm、母標準偏差 σ\sigma の母集団から大きさ nn の無作為標本を抽出するとき

E(X)=m,σ(X)=σnE(\overline{X}) = m, \quad \sigma(\overline{X}) = \frac{\sigma}{\sqrt{n}}

さらに nn が十分大きければ、X\overline{X} は近似的に正規分布 N(m, σ2n)N\left(m,\ \dfrac{\sigma^2}{n}\right) に従います。

標本を増やすほど σn\dfrac{\sigma}{\sqrt{n}} が小さくなる、つまり標本平均が母平均の近くに集まりやすくなる — これが「たくさん調べるほど正確になる」ことの数学的な表現です。

母平均の95%信頼区間

標本の大きさ nn が十分大きいとき、母平均 mm に対する信頼度 95%95\% の信頼区間は

X1.96σn  m  X+1.96σn\overline{X} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \ \le\ m\ \le\ \overline{X} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}

1.961.96P(1.96Z1.96)=0.95P(-1.96 \le Z \le 1.96) = 0.95 からくる数です。母標準偏差 σ\sigma がわからないときは、nn が大きければ標本の標準偏差で代用してかまいません。

例題 4(母平均の推定)

ある高校の生徒から 100100 人を無作為に選んで身長を測ったところ、平均は 165.2165.2 cm であった。母標準偏差を 55 cm とするとき、この高校の生徒全体の平均身長 mm を信頼度 95%95\% で推定せよ。ただし P(0Z1.96)=0.475P(0 \le Z \le 1.96) = 0.475 とする。

解き方

n=100n = 100X=165.2\overline{X} = 165.2σ=5\sigma = 5 です。

1.96σn=1.965100=1.960.5=0.981.96 \cdot \frac{\sigma}{\sqrt{n}} = 1.96 \cdot \frac{5}{\sqrt{100}} = 1.96 \cdot 0.5 = 0.98

よって信頼度 95%95\% の信頼区間は

165.20.98m165.2+0.98165.2 - 0.98 \le m \le 165.2 + 0.98

すなわち 164.22m166.18164.22 \le m \le 166.18(単位: cm)。

母比率の95%信頼区間

母集団の中である性質をもつものの割合(母比率)を pp、大きさ nn の標本での割合(標本比率)を p^\hat{p} とすると、nn が十分大きいとき、pp に対する信頼度 95%95\% の信頼区間は

p^1.96p^(1p^)n  p  p^+1.96p^(1p^)n\hat{p} - 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}} \ \le\ p\ \le\ \hat{p} + 1.96\sqrt{\frac{\hat{p}(1-\hat{p})}{n}}

「信頼度 95%95\%」とは、同じ方法で標本抽出と区間の計算を何度もくり返したとき、できた区間のうち約 95%95\% が本当の値を含む、という意味です。

仮説検定

「このコインは表が出やすいのではないか?」という主張を、データを使って統計的に判断する方法が仮説検定です。

考え方は背理法に似ています。主張したいことと反対の仮説(帰無仮説 H0H_0、たとえば「コインは公正で表の確率は 12\dfrac{1}{2}」)をいったん正しいと仮定し、その仮定のもとで実際に観察されたデータが「めったに起こらないほど極端」であれば、仮定 H0H_0 の方を疑って捨てる(棄却する)のです。主張したい側の仮説を対立仮説 H1H_1 といいます。

仮説検定の手順

1. 帰無仮説 H0H_0 と対立仮説 H1H_1 を立てる
2. 有意水準 α\alpha(「めったに起こらない」の基準となる確率。ふつう 5%5\%1%1\%)を決める
3. H0H_0 のもとでの分布を考え、確率が α\alpha 以下になる極端な値の範囲(棄却域)を求める
4. 観察された値が棄却域に入れば H0H_0 を棄却し、H1H_1 が正しいと判断する。入らなければ H0H_0 を棄却しない

有意水準 5%5\% のとき、標準化した値 ZZ で表した棄却域は、両側検定なら Z1.96|Z| \ge 1.96、片側検定なら Z1.64Z \ge 1.64(または Z1.64Z \le -1.64)です。

例題 5(仮説検定)

1個のさいころを 720720 回投げたところ、11 の目が 140140 回出た。このさいころは 11 の目が出やすいように偏っていると判断してよいか。有意水準 5%5\% で検定せよ。ただし P(0Z1.96)=0.475P(0 \le Z \le 1.96) = 0.475 とする。

解き方

帰無仮説 H0H_0: 11 の目が出る確率は 16\dfrac{1}{6} である(さいころは公正)
対立仮説 H1H_1: 11 の目が出る確率は 16\dfrac{1}{6} ではない

H0H_0 のもとで、11 の目が出る回数 XX は二項分布 B(720, 16)B\left(720,\ \dfrac{1}{6}\right) に従い

E(X)=72016=120,σ(X)=7201656=100=10E(X) = 720 \cdot \frac{1}{6} = 120, \quad \sigma(X) = \sqrt{720 \cdot \frac{1}{6} \cdot \frac{5}{6}} = \sqrt{100} = 10

nn が大きいので正規近似して、X=140X = 140 を標準化すると

Z=14012010=2Z = \frac{140 - 120}{10} = 2

有意水準 5%5\% の棄却域は Z1.96|Z| \ge 1.96 で、2=21.96|2| = 2 \ge 1.96 だから ZZ は棄却域に入ります。

よって H0H_0 は棄却され、このさいころは偏っていると判断できます。

注意したいのは、H0H_0 が棄却されなかったときの結論です。それは「H0H_0 が正しいと証明された」のではなく、「H0H_0 を否定するだけの証拠が得られなかった」という意味にすぎません。また、有意水準 5%5\% の検定では、本当は H0H_0 が正しいのに誤って棄却してしまう確率が最大 5%5\% あることも頭に入れておきましょう。

この章の内容がむずかしいと感じたら

ChatGPTで質問Claudeで質問Geminiで質問

わからないところは遠慮なくAIに聞こう。Geminiはボタンを押すとプロンプトがコピーされるので、開いたら貼り付けてね。