データの分析

データの整理と代表値

身長やテストの得点のように、調査の対象となる特性を表す量を変量といいます。集めたデータをそのまま眺めても特徴はつかみにくいので、まず整理します。データの値の範囲をいくつかの区間(階級)に分け、各階級に入るデータの個数(度数)を表にしたものが度数分布表、それを柱状のグラフにしたものがヒストグラムです。階級の真ん中の値を階級値といいます。

3つの代表値

データ全体の特徴を1つの数値で表すものを代表値といいます。

・平均値 $\bar{x}$ … データの値の合計を個数で割った値。 $n$ 個のデータ $x_1, x_2, \ldots, x_n$ に対して

\bar{x} = \frac{1}{n}(x_1 + x_2 + \cdots + x_n)

・中央値(メジアン) … データを小さい順に並べたとき中央にくる値。個数が偶数のときは、中央の2つの値の平均をとる

・最頻値(モード) … 最も多く現れる値。度数分布表では度数が最大の階級の階級値

例題 1

6人の生徒の小テスト(10点満点)の得点は次の通りであった。
$3, \ 5, \ 5, \ 6, \ 8, \ 9$
平均値、中央値、最頻値を求めよ。

解き方

平均値は合計を人数で割って

\bar{x} = \frac{3+5+5+6+8+9}{6} = \frac{36}{6} = 6

より $6$ 点です。データはすでに小さい順に並んでいます。6個(偶数個)なので、中央値は3番目と4番目の値の平均で

\frac{5+6}{2} = 5.5

より $5.5$ 点です。最頻値は、最も多く(2回)現れる $5$ 点です。

代表値は使い分けが大切です。平均値はすべての値を反映しますが、極端に大きい(小さい)値が1つあるだけで大きく動きます。一方、中央値は「順番」しか見ないので、極端な値の影響を受けにくいという長所があります。たとえば年収のデータのように一部の大きな値に引っ張られやすい場合は、平均値より中央値のほうが「ふつうの人」の実感に近いことが多いのです。

四分位数と箱ひげ図、外れ値

代表値だけでは、データがどのくらい広がっているか(散らばり)は分かりません。散らばりを表す最も単純な量が、最大値から最小値を引いた範囲(レンジ)です。さらに細かく見るために、データを小さい順に並べて4等分する位置の値、四分位数を考えます。

四分位数の求め方

データを小さい順に並べ、

1. 中央値を第2四分位数 $Q_2$ とする
2. 中央値を境にデータを下半分と上半分に分ける(データの個数が奇数のときは、中央値はどちらにも含めない)
3. 下半分の中央値を第1四分位数 $Q_1$ 、上半分の中央値を第3四分位数 $Q_3$ とする

また、 $Q_3 - Q_1$ を四分位範囲、その半分 $\dfrac{Q_3 - Q_1}{2}$ を四分位偏差といいます。四分位範囲は、中央付近の約半数のデータが収まる幅を表します。

例題 2

次の7個のデータの四分位数と四分位範囲を求めよ。
$2, \ 4, \ 5, \ 7, \ 9, \ 10, \ 13$

解き方

7個のデータの中央値は4番目の値なので

Q_2 = 7

中央値 $7$ を除いた下半分は $2, 4, 5$ で、その中央値が

Q_1 = 4

上半分は $9, 10, 13$ で、その中央値が

Q_3 = 10

四分位範囲は

Q_3 - Q_1 = 10 - 4 = 6

最小値・ $Q_1$ ・中央値・ $Q_3$ ・最大値の5つの数値(5数要約)を1つの図にまとめたものが箱ひげ図です。 $Q_1$ から $Q_3$ までを箱で表し、箱の中に中央値の線を引き、最小値・最大値まで「ひげ」を伸ばします。箱ひげ図はコンパクトなので、複数のクラスの得点分布を並べて比較する、といった場面で力を発揮します。箱の長さがそのまま四分位範囲を表すことも覚えておきましょう。

外れ値

他の値から極端に離れた値を外れ値といいます。よく使われる基準は四分位範囲を使うもので、

$Q_1 - 1.5 \times (Q_3 - Q_1)$ より小さい値、または $Q_3 + 1.5 \times (Q_3 - Q_1)$ より大きい値

を外れ値とみなします。外れ値は測定ミスの可能性もあれば、重要な発見の手がかりであることもあるので、機械的に捨てずに理由を考えることが大切です。

分散と標準偏差

散らばりを「すべてのデータを使って」測る量を考えましょう。各データの値から平均値を引いた差 $x_k - \bar{x}$ を偏差といいます。偏差は平均より大きければ正、小さければ負で、偏差の合計(したがって平均)は必ず $0$ になります。そこで偏差をそのまま平均するのではなく、2乗してから平均します。これが分散です。

分散と標準偏差

$n$ 個のデータ $x_1, x_2, \ldots, x_n$ の平均値を $\bar{x}$ とするとき、分散 $s^2$ は

s^2 = \frac{1}{n}\left\{(x_1-\bar{x})^2 + (x_2-\bar{x})^2 + \cdots + (x_n-\bar{x})^2\right\}

分散の正の平方根 $s = \sqrt{s^2}$ を標準偏差といいます。標準偏差はもとのデータと同じ単位をもち、値が大きいほどデータの散らばりが大きいことを表します。

分散のもう1つの計算式

分散は次の式でも計算できます。

s^2 = \overline{x^2} - (\bar{x})^2

つまり「( $x^2$ の平均)−( $x$ の平均) $^2$ 」です。平均値が小数になって偏差の計算が面倒なときは、こちらの式のほうが速いことがよくあります。引き算の順番(2乗の平均が先)を間違えないように注意しましょう。

例題 3

5人の生徒の小テストの得点 $3, \ 5, \ 6, \ 7, \ 9$ の分散と標準偏差を求めよ。

解き方

まず平均値は

\bar{x} = \frac{3+5+6+7+9}{5} = \frac{30}{5} = 6

各データの偏差は $-3, \ -1, \ 0, \ 1, \ 3$ なので、分散は

s^2 = \frac{(-3)^2 + (-1)^2 + 0^2 + 1^2 + 3^2}{5} = \frac{9+1+0+1+9}{5} = \frac{20}{5} = 4

標準偏差は $s = \sqrt{4} = 2$ (点)です。

もう1つの式でも確かめてみましょう。 $x^2$ の平均は

\overline{x^2} = \frac{9+25+36+49+81}{5} = \frac{200}{5} = 40

なので $s^2 = 40 - 6^2 = 4$ となり、確かに一致します。

変量の変換

変量 $x$ に対して、 $a$ 、 $b$ を定数として新しい変量 $y = ax + b$ を作ると、

平均値: $\bar{y} = a\bar{x} + b$

分散: $s_y^2 = a^2 s_x^2$ 、標準偏差: $s_y = |a| s_x$

となります。全員に一律 $b$ 点を加えても散らばり方は変わらないので、分散に $b$ が現れないのは自然ですね。一方、 $a$ 倍すると偏差も $a$ 倍になるので、分散はその2乗の $a^2$ 倍になります。

2つの変量の関係と仮説検定の考え方

ここまでは1つの変量を調べてきましたが、「数学の得点が高い人は英語の得点も高いのか?」のように、2つの変量の関係を調べたい場面も多くあります。2つの変量の組を平面上の点として表した図を散布図といいます。一方が増えると他方も増える傾向があるとき正の相関、一方が増えると他方が減る傾向があるとき負の相関があるといい、どちらの傾向もないときは相関がないといいます。

共分散と相関係数

2つの変量 $x$ 、 $y$ の $n$ 組のデータについて、 $x$ の偏差と $y$ の偏差の積の平均を共分散 $s_{xy}$ といいます。

s_{xy} = \frac{1}{n}\left\{(x_1-\bar{x})(y_1-\bar{y}) + \cdots + (x_n-\bar{x})(y_n-\bar{y})\right\}

共分散を、 $x$ の標準偏差 $s_x$ と $y$ の標準偏差 $s_y$ の積で割った値が相関係数 $r$ です。

r = \frac{s_{xy}}{s_x s_y}

相関係数は必ず $-1 \le r \le 1$ の範囲にあり、 $1$ に近いほど強い正の相関、 $-1$ に近いほど強い負の相関を表します。単位のとり方(点、cm など)によらず相関の強さを比べられるのが、共分散でなく相関係数を使う理由です。

例題 4

5人の生徒の数学の得点 $x$ と英語の得点 $y$ が次の通りであった。相関係数 $r$ を求めよ。
$(x, y) = (1, 2), \ (2, 5), \ (3, 4), \ (4, 3), \ (5, 6)$

解き方

まず平均値を求めます。

\bar{x} = \frac{1+2+3+4+5}{5} = 3, \quad \bar{y} = \frac{2+5+4+3+6}{5} = 4

$x$ の偏差は $-2, -1, 0, 1, 2$ 、 $y$ の偏差は $-2, 1, 0, -1, 2$ です。

偏差の2乗の平均から

s_x^2 = \frac{4+1+0+1+4}{5} = 2, \quad s_y^2 = \frac{4+1+0+1+4}{5} = 2

よって $s_x = s_y = \sqrt{2}$ 。偏差の積の平均(共分散)は

s_{xy} = \frac{(-2)(-2) + (-1)(1) + 0 + (1)(-1) + (2)(2)}{5} = \frac{4-1+0-1+4}{5} = \frac{6}{5} = 1.2

したがって相関係数は

r = \frac{s_{xy}}{s_x s_y} = \frac{1.2}{\sqrt{2} \times \sqrt{2}} = \frac{1.2}{2} = 0.6

注意してほしいのは、相関があることと因果関係があることは別だということです。たとえば「アイスの売上」と「熱中症の人数」には強い正の相関がありますが、アイスが熱中症を引き起こすわけではなく、「気温」という共通の原因が両方を動かしています。相関係数はあくまで「直線的な関係の強さ」を測る道具だと覚えておきましょう。

仮説検定の考え方

「このコインは表が出やすいのでは?」のような主張が正しいかどうかを、確率を使って判断する方法が仮説検定です。手順は次の通りです。

1. 判断したい主張に反する仮説(例: 表と裏は同じ確率で出る)を立てる
2. その仮説のもとで、実際に起きた結果(またはそれ以上に極端な結果)が起こる確率を計算する
3. その確率が基準(ふつう $5\%$ )より小さければ、「めったに起こらないことが起きた」と考えて仮説を棄却し、もとの主張が正しいと判断する。基準以上なら、仮説は棄却できず、主張が正しいとは判断できない

例題 5

あるコインを6回投げたところ、6回とも表が出た。このコインは表が出やすいと判断してよいか。基準となる確率を $5\%$ として考察せよ。

解き方

「表と裏は同じ確率 $\dfrac{1}{2}$ で出る」という仮説を立てます。この仮説のもとで6回とも表が出る確率は

\left(\frac{1}{2}\right)^6 = \frac{1}{64} = 0.015625

これは約 $1.6\%$ で、基準の $5\%$ より小さい値です。つまり、仮説が正しいならめったに起こらないはずのことが起きたので、仮説を棄却します。

したがって、このコインは表が出やすいと判断できます。

§1データの整理と代表値

§2四分位数と箱ひげ図、外れ値

§3分散と標準偏差

§42つの変量の関係と仮説検定の考え方

データの整理と代表値

四分位数と箱ひげ図、外れ値

分散と標準偏差

2つの変量の関係と仮説検定の考え方