度数分布表とヒストグラム
クラスの通学時間やソフトボール投げの記録のように、たくさんの数値が集まったものをデータといいます。データをただ並べただけでは、全体の様子(散らばりぐあい)はつかめません。そこで、データをいくつかの区間に区切って整理します。この区間のことを階級、区間の大きさを階級の幅、それぞれの階級に入るデータの個数を度数といい、整理した表を度数分布表といいます。
たとえば、10人の生徒の通学時間(分)が次のようだったとします。
5, 8, 12, 14, 15, 16, 18, 21, 24, 27
これを階級の幅を5分にして度数分布表に整理すると、次のようになります。
5分以上10分未満 … 度数 2人
10分以上15分未満 … 度数 2人
15分以上20分未満 … 度数 3人
20分以上25分未満 … 度数 2人
25分以上30分未満 … 度数 1人
合計 … 10人
度数分布表を柱状のグラフに表したものをヒストグラムといいます。横軸に階級、縦軸に度数をとり、長方形をすき間なく並べてかきます。棒グラフとちがってすき間をあけないのは、横軸が「区切りのない連続した数値」だからです。さらに、ヒストグラムの各長方形の上の辺の中点(階級値の位置)を順に線分で結ぶと、度数折れ線(度数分布多角形)ができます。度数折れ線は、両端に度数0の階級があると考えて、横軸まで結んでかきます。折れ線にすると、2つのデータの分布の形を重ねて比べやすくなります。
相対度数と累積度数
「15分以上20分未満の生徒が3人いる」と言われても、全体が10人なのか100人なのかで意味は大きく変わります。そこで、全体に対する割合で度数を表したものが相対度数です。相対度数を使うと、人数(合計の度数)がちがうグループどうしでも分布を比べられるようになります。
また、最初の階級からその階級までの度数をすべてたし合わせたものを累積度数といいます。同じように、相対度数をたし合わせたものを累積相対度数といいます。累積度数を見ると、「20分未満の生徒は何人か」のような「〜未満」「〜以下」の人数がひと目で分かります。
代表値(平均値・中央値・最頻値)と範囲
データ全体の特徴を1つの数値で代表させたものを代表値といいます。代表値には平均値・中央値・最頻値の3つがあり、データの特徴によって使い分けます。また、データの散らばりの大きさを表す値として範囲(レンジ)があります。
データの個数が偶数のときの中央値も確認しておきましょう。たとえば 2, 4, 5, 7, 7, 11 という6個のデータでは、真ん中は3番目と4番目の2つになるので、その平均
が中央値です。
また、極端に大きい(または小さい)値がまじっているデータでは、平均値はその値に引っぱられて、全体の実感からずれてしまうことがあります。そのようなときは、順番の真ん中で決まる中央値のほうが、データ全体の様子をよく表す代表値になります。どの代表値を使うのがよいかを、目的に合わせて選べるようになることが大切です。
度数分布表しかないとき(もとの一人ひとりの値が分からないとき)は、各階級の値をその階級値で代表させて、平均値のおよその値を求めます。
平均値 =(階級値 × 度数 の合計)÷(度数の合計)
最頻値は、度数がもっとも大きい階級の階級値とします。
ことがらの起こりやすさ
ペットボトルのキャップを投げると、「上向き」になるか「そうでない」かは、投げてみるまで分かりません。このような、結果が偶然に左右されることがらでも、実験を何回もくり返すと「起こりやすさ」に一定の傾向が見えてきます。実際にキャップを投げる実験をして、上向きになった回数を記録すると、たとえば次のようになります。
100回投げたとき … 上向き38回、相対度数 0.38
500回投げたとき … 上向き195回、相対度数 0.39
1000回投げたとき … 上向き392回、相対度数 0.392
2000回投げたとき … 上向き786回、相対度数 0.393
投げる回数が少ないうちは相対度数はばらつきますが、回数を増やしていくと、相対度数はしだいに一定の値(この実験ではおよそ0.39)に近づいていきます。