データの整理と代表値
身長やテストの得点のように、調査の対象となる特性を表す量を変量といいます。集めたデータをそのまま眺めても特徴はつかみにくいので、まず整理します。データの値の範囲をいくつかの区間(階級)に分け、各階級に入るデータの個数(度数)を表にしたものが度数分布表、それを柱状のグラフにしたものがヒストグラムです。階級の真ん中の値を階級値といいます。
代表値は使い分けが大切です。平均値はすべての値を反映しますが、極端に大きい(小さい)値が1つあるだけで大きく動きます。一方、中央値は「順番」しか見ないので、極端な値の影響を受けにくいという長所があります。たとえば年収のデータのように一部の大きな値に引っ張られやすい場合は、平均値より中央値のほうが「ふつうの人」の実感に近いことが多いのです。
四分位数と箱ひげ図、外れ値
代表値だけでは、データがどのくらい広がっているか(散らばり)は分かりません。散らばりを表す最も単純な量が、最大値から最小値を引いた範囲(レンジ)です。さらに細かく見るために、データを小さい順に並べて4等分する位置の値、四分位数を考えます。
最小値・・中央値・・最大値の5つの数値(5数要約)を1つの図にまとめたものが箱ひげ図です。 から までを箱で表し、箱の中に中央値の線を引き、最小値・最大値まで「ひげ」を伸ばします。箱ひげ図はコンパクトなので、複数のクラスの得点分布を並べて比較する、といった場面で力を発揮します。箱の長さがそのまま四分位範囲を表すことも覚えておきましょう。
分散と標準偏差
散らばりを「すべてのデータを使って」測る量を考えましょう。各データの値から平均値を引いた差 を偏差といいます。偏差は平均より大きければ正、小さければ負で、偏差の合計(したがって平均)は必ず になります。そこで偏差をそのまま平均するのではなく、2乗してから平均します。これが分散です。
2つの変量の関係と仮説検定の考え方
ここまでは1つの変量を調べてきましたが、「数学の得点が高い人は英語の得点も高いのか?」のように、2つの変量の関係を調べたい場面も多くあります。2つの変量の組を平面上の点として表した図を散布図といいます。一方が増えると他方も増える傾向があるとき正の相関、一方が増えると他方が減る傾向があるとき負の相関があるといい、どちらの傾向もないときは相関がないといいます。
注意してほしいのは、相関があることと因果関係があることは別だということです。たとえば「アイスの売上」と「熱中症の人数」には強い正の相関がありますが、アイスが熱中症を引き起こすわけではなく、「気温」という共通の原因が両方を動かしています。相関係数はあくまで「直線的な関係の強さ」を測る道具だと覚えておきましょう。