みんなの教科書GitHub

数学I5

データの分析

平均・分散・標準偏差、箱ひげ図、相関係数などデータを読み解く力を養います。

データの整理と代表値

身長やテストの得点のように、調査の対象となる特性を表す量を変量といいます。集めたデータをそのまま眺めても特徴はつかみにくいので、まず整理します。データの値の範囲をいくつかの区間(階級)に分け、各階級に入るデータの個数(度数)を表にしたものが度数分布表、それを柱状のグラフにしたものがヒストグラムです。階級の真ん中の値を階級値といいます。

3つの代表値

データ全体の特徴を1つの数値で表すものを代表値といいます。

・平均値 xˉ\bar{x} … データの値の合計を個数で割った値。nn 個のデータ x1,x2,,xnx_1, x_2, \ldots, x_n に対して

xˉ=1n(x1+x2++xn)\bar{x} = \frac{1}{n}(x_1 + x_2 + \cdots + x_n)

・中央値(メジアン) … データを小さい順に並べたとき中央にくる値。個数が偶数のときは、中央の2つの値の平均をとる

・最頻値(モード) … 最も多く現れる値。度数分布表では度数が最大の階級の階級値

例題 1

6人の生徒の小テスト(10点満点)の得点は次の通りであった。
3, 5, 5, 6, 8, 93, \ 5, \ 5, \ 6, \ 8, \ 9
平均値、中央値、最頻値を求めよ。

解き方

平均値は合計を人数で割って

xˉ=3+5+5+6+8+96=366=6\bar{x} = \frac{3+5+5+6+8+9}{6} = \frac{36}{6} = 6

より 66 点です。データはすでに小さい順に並んでいます。6個(偶数個)なので、中央値は3番目と4番目の値の平均で

5+62=5.5\frac{5+6}{2} = 5.5

より 5.55.5 点です。最頻値は、最も多く(2回)現れる 55 点です。

代表値は使い分けが大切です。平均値はすべての値を反映しますが、極端に大きい(小さい)値が1つあるだけで大きく動きます。一方、中央値は「順番」しか見ないので、極端な値の影響を受けにくいという長所があります。たとえば年収のデータのように一部の大きな値に引っ張られやすい場合は、平均値より中央値のほうが「ふつうの人」の実感に近いことが多いのです。

四分位数と箱ひげ図、外れ値

代表値だけでは、データがどのくらい広がっているか(散らばり)は分かりません。散らばりを表す最も単純な量が、最大値から最小値を引いた範囲(レンジ)です。さらに細かく見るために、データを小さい順に並べて4等分する位置の値、四分位数を考えます。

四分位数の求め方

データを小さい順に並べ、

1. 中央値を第2四分位数 Q2Q_2 とする
2. 中央値を境にデータを下半分と上半分に分ける(データの個数が奇数のときは、中央値はどちらにも含めない)
3. 下半分の中央値を第1四分位数 Q1Q_1、上半分の中央値を第3四分位数 Q3Q_3 とする

また、Q3Q1Q_3 - Q_1 を四分位範囲、その半分 Q3Q12\dfrac{Q_3 - Q_1}{2} を四分位偏差といいます。四分位範囲は、中央付近の約半数のデータが収まる幅を表します。

例題 2

次の7個のデータの四分位数と四分位範囲を求めよ。
2, 4, 5, 7, 9, 10, 132, \ 4, \ 5, \ 7, \ 9, \ 10, \ 13

解き方

7個のデータの中央値は4番目の値なので

Q2=7Q_2 = 7

中央値 77 を除いた下半分は 2,4,52, 4, 5 で、その中央値が

Q1=4Q_1 = 4

上半分は 9,10,139, 10, 13 で、その中央値が

Q3=10Q_3 = 10

四分位範囲は

Q3Q1=104=6Q_3 - Q_1 = 10 - 4 = 6

最小値・Q1Q_1・中央値・Q3Q_3・最大値の5つの数値(5数要約)を1つの図にまとめたものが箱ひげ図です。Q1Q_1 から Q3Q_3 までを箱で表し、箱の中に中央値の線を引き、最小値・最大値まで「ひげ」を伸ばします。箱ひげ図はコンパクトなので、複数のクラスの得点分布を並べて比較する、といった場面で力を発揮します。箱の長さがそのまま四分位範囲を表すことも覚えておきましょう。

外れ値

他の値から極端に離れた値を外れ値といいます。よく使われる基準は四分位範囲を使うもので、

Q11.5×(Q3Q1)Q_1 - 1.5 \times (Q_3 - Q_1) より小さい値、または Q3+1.5×(Q3Q1)Q_3 + 1.5 \times (Q_3 - Q_1) より大きい値

を外れ値とみなします。外れ値は測定ミスの可能性もあれば、重要な発見の手がかりであることもあるので、機械的に捨てずに理由を考えることが大切です。

分散と標準偏差

散らばりを「すべてのデータを使って」測る量を考えましょう。各データの値から平均値を引いた差 xkxˉx_k - \bar{x} を偏差といいます。偏差は平均より大きければ正、小さければ負で、偏差の合計(したがって平均)は必ず 00 になります。そこで偏差をそのまま平均するのではなく、2乗してから平均します。これが分散です。

分散と標準偏差

nn 個のデータ x1,x2,,xnx_1, x_2, \ldots, x_n の平均値を xˉ\bar{x} とするとき、分散 s2s^2

s2=1n{(x1xˉ)2+(x2xˉ)2++(xnxˉ)2}s^2 = \frac{1}{n}\left\{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \cdots + (x_n-\bar{x})^2\right\}

分散の正の平方根 s=s2s = \sqrt{s^2} を標準偏差といいます。標準偏差はもとのデータと同じ単位をもち、値が大きいほどデータの散らばりが大きいことを表します。

分散のもう1つの計算式

分散は次の式でも計算できます。

s2=x2(xˉ)2s^2 = \overline{x^2} - (\bar{x})^2

つまり「(x2x^2 の平均)−(xx の平均)2^2」です。平均値が小数になって偏差の計算が面倒なときは、こちらの式のほうが速いことがよくあります。引き算の順番(2乗の平均が先)を間違えないように注意しましょう。

例題 3

5人の生徒の小テストの得点 3, 5, 6, 7, 93, \ 5, \ 6, \ 7, \ 9 の分散と標準偏差を求めよ。

解き方

まず平均値は

xˉ=3+5+6+7+95=305=6\bar{x} = \frac{3+5+6+7+9}{5} = \frac{30}{5} = 6

各データの偏差は 3, 1, 0, 1, 3-3, \ -1, \ 0, \ 1, \ 3 なので、分散は

s2=(3)2+(1)2+02+12+325=9+1+0+1+95=205=4s^2 = \frac{(-3)^2 + (-1)^2 + 0^2 + 1^2 + 3^2}{5} = \frac{9+1+0+1+9}{5} = \frac{20}{5} = 4

標準偏差は s=4=2s = \sqrt{4} = 2(点)です。

もう1つの式でも確かめてみましょう。x2x^2 の平均は

x2=9+25+36+49+815=2005=40\overline{x^2} = \frac{9+25+36+49+81}{5} = \frac{200}{5} = 40

なので s2=4062=4s^2 = 40 - 6^2 = 4 となり、確かに一致します。

変量の変換

変量 xx に対して、aabb を定数として新しい変量 y=ax+by = ax + b を作ると、

平均値: yˉ=axˉ+b\bar{y} = a\bar{x} + b

分散: sy2=a2sx2s_y^2 = a^2 s_x^2、 標準偏差: sy=asxs_y = |a| s_x

となります。全員に一律 bb 点を加えても散らばり方は変わらないので、分散に bb が現れないのは自然ですね。一方、aa 倍すると偏差も aa 倍になるので、分散はその2乗の a2a^2 倍になります。

2つの変量の関係と仮説検定の考え方

ここまでは1つの変量を調べてきましたが、「数学の得点が高い人は英語の得点も高いのか?」のように、2つの変量の関係を調べたい場面も多くあります。2つの変量の組を平面上の点として表した図を散布図といいます。一方が増えると他方も増える傾向があるとき正の相関、一方が増えると他方が減る傾向があるとき負の相関があるといい、どちらの傾向もないときは相関がないといいます。

共分散と相関係数

2つの変量 xxyynn 組のデータについて、xx の偏差と yy の偏差の積の平均を共分散 sxys_{xy} といいます。

sxy=1n{(x1xˉ)(y1yˉ)++(xnxˉ)(ynyˉ)}s_{xy} = \frac{1}{n}\left\{(x_1-\bar{x})(y_1-\bar{y}) + \cdots + (x_n-\bar{x})(y_n-\bar{y})\right\}

共分散を、xx の標準偏差 sxs_xyy の標準偏差 sys_y の積で割った値が相関係数 rr です。

r=sxysxsyr = \frac{s_{xy}}{s_x s_y}

相関係数は必ず 1r1-1 \le r \le 1 の範囲にあり、11 に近いほど強い正の相関、1-1 に近いほど強い負の相関を表します。単位のとり方(点、cm など)によらず相関の強さを比べられるのが、共分散でなく相関係数を使う理由です。

例題 4

5人の生徒の数学の得点 xx と英語の得点 yy が次の通りであった。相関係数 rr を求めよ。
(x,y)=(1,2), (2,5), (3,4), (4,3), (5,6)(x, y) = (1, 2), \ (2, 5), \ (3, 4), \ (4, 3), \ (5, 6)

解き方

まず平均値を求めます。

xˉ=1+2+3+4+55=3,yˉ=2+5+4+3+65=4\bar{x} = \frac{1+2+3+4+5}{5} = 3, \quad \bar{y} = \frac{2+5+4+3+6}{5} = 4

xx の偏差は 2,1,0,1,2-2, -1, 0, 1, 2yy の偏差は 2,1,0,1,2-2, 1, 0, -1, 2 です。

偏差の2乗の平均から

sx2=4+1+0+1+45=2,sy2=4+1+0+1+45=2s_x^2 = \frac{4+1+0+1+4}{5} = 2, \quad s_y^2 = \frac{4+1+0+1+4}{5} = 2

よって sx=sy=2s_x = s_y = \sqrt{2}。偏差の積の平均(共分散)は

sxy=(2)(2)+(1)(1)+0+(1)(1)+(2)(2)5=41+01+45=65=1.2s_{xy} = \frac{(-2)(-2) + (-1)(1) + 0 + (1)(-1) + (2)(2)}{5} = \frac{4-1+0-1+4}{5} = \frac{6}{5} = 1.2

したがって相関係数は

r=sxysxsy=1.22×2=1.22=0.6r = \frac{s_{xy}}{s_x s_y} = \frac{1.2}{\sqrt{2} \times \sqrt{2}} = \frac{1.2}{2} = 0.6

注意してほしいのは、相関があることと因果関係があることは別だということです。たとえば「アイスの売上」と「熱中症の人数」には強い正の相関がありますが、アイスが熱中症を引き起こすわけではなく、「気温」という共通の原因が両方を動かしています。相関係数はあくまで「直線的な関係の強さ」を測る道具だと覚えておきましょう。

仮説検定の考え方

「このコインは表が出やすいのでは?」のような主張が正しいかどうかを、確率を使って判断する方法が仮説検定です。手順は次の通りです。

1. 判断したい主張に反する仮説(例: 表と裏は同じ確率で出る)を立てる
2. その仮説のもとで、実際に起きた結果(またはそれ以上に極端な結果)が起こる確率を計算する
3. その確率が基準(ふつう 5%5\%)より小さければ、「めったに起こらないことが起きた」と考えて仮説を棄却し、もとの主張が正しいと判断する。基準以上なら、仮説は棄却できず、主張が正しいとは判断できない

例題 5

あるコインを6回投げたところ、6回とも表が出た。このコインは表が出やすいと判断してよいか。基準となる確率を 5%5\% として考察せよ。

解き方

「表と裏は同じ確率 12\dfrac{1}{2} で出る」という仮説を立てます。この仮説のもとで6回とも表が出る確率は

(12)6=164=0.015625\left(\frac{1}{2}\right)^6 = \frac{1}{64} = 0.015625

これは約 1.6%1.6\% で、基準の 5%5\% より小さい値です。つまり、仮説が正しいならめったに起こらないはずのことが起きたので、仮説を棄却します。

したがって、このコインは表が出やすいと判断できます。

この章の内容がむずかしいと感じたら

ChatGPTで質問Claudeで質問Geminiで質問

わからないところは遠慮なくAIに聞こう。Geminiはボタンを押すとプロンプトがコピーされるので、開いたら貼り付けてね。