数学I データの分析
答えと解説
答えが合っていても、解説を読んで「なぜそう解くのか」まで確認すると力がつきます。 解説を読んでもわからないときは、AIに質問してみましょう。
5人の生徒の小テスト(10点満点)の得点は次の通りであった。
5, 6, 6, 8, 10
平均値、中央値、最頻値を求めよ。
答え
平均値 7 点、中央値 6 点、最頻値 6 点
解説
平均値は「合計 ÷ 個数」です。
より 7 点です。データはすでに小さい順に並んでいます。5個(奇数個)なので、中央値はちょうど真ん中の3番目の値で 6 点です。
最頻値は最も多く現れる値です。6 が2回現れ、他はすべて1回なので、最頻値は 6 点です。
中央値を求めるときは、必ずデータが小さい順に並んでいることを確認してから真ん中を探しましょう。並べ替えを忘れるのが最も多いミスです。
8人の生徒の1週間の読書時間を調べ、次の度数分布表を得た。読書時間の平均値を求めよ。
0時間以上2時間未満 … 2人
2時間以上4時間未満 … 4人
4時間以上6時間未満 … 2人
答え
3 時間
解説
度数分布表から平均値を求めるときは、各階級のデータがすべて階級値(階級の真ん中の値)をとるとみなして計算します。
各階級の階級値は、0〜2 が 1、2〜4 が 3、4〜6 が 5 です。
「階級値 × 度数」の合計を総度数で割って
よって平均値は 3 時間です。
度数分布表から求める平均値は、もとのデータの正確な平均値とは一般に一致しない「近似値」であることも覚えておきましょう。
次の6個のデータについて、中央値と範囲(レンジ)を求めよ。
2, 3, 5, 7, 8, 11
答え
中央値 6、範囲 9
解説
データはすでに小さい順に並んでいます。個数が6個(偶数)なので、中央値は中央の2つ、すなわち3番目の値 5 と4番目の値 7 の平均です。
範囲は「最大値 − 最小値」なので
偶数個のデータの中央値は「2つの値の平均」であって、データの中に実際にある値とは限りません。この問題でも 6 はデータに含まれていませんが、それで正解です。
次の7個のデータについて、第1四分位数 Q1、第2四分位数 Q2、第3四分位数 Q3 と四分位範囲を求めよ。
1, 3, 4, 6, 8, 9, 12
答え
Q1=3、Q2=6、Q3=9、四分位範囲 6
解説
データはすでに小さい順に並んでいます。7個のデータの中央値は4番目の値なので
データの個数が奇数のときは、中央値をどちらの半分にも含めずにデータを分けます。
下半分は 1,3,4 で、その中央値が
上半分は 8,9,12 で、その中央値が
四分位範囲は
「奇数個のときは中央値を除いて半分に分ける」というルールを忘れないようにしましょう。ここを間違えると Q1、Q3 がずれてしまいます。
5人の生徒の通学時間(分)は次の通りであった。分散と標準偏差を求めよ。
4, 5, 6, 7, 8
答え
分散 2、標準偏差 2 分
解説
まず平均値を求めます。
各データの偏差(データ − 平均)は
分散は偏差の2乗の平均なので
標準偏差は分散の正の平方根で
より 2 分です。
検算のコツ: 偏差の合計は必ず 0 になります。−2−1+0+1+2=0 を確認してから2乗の計算に進むと、平均値の計算ミスに早く気づけます。
5個のデータ 3, 5, 7, x, 9 の平均値が 6 であるとき、x の値と、このデータの中央値を求めよ。
答え
x=6、中央値 6
解説
平均値の定義から式を立てます。平均値が 6 なので
両辺に 5 を掛けて
x=6 をデータに戻し、小さい順に並べ直すと
5個(奇数個)なので、中央値は3番目の値で 6 です。
「平均値 × 個数 = 合計」という見方をすると、合計が 30 と即座に分かり、x=30−24=6 と暗算でも求められます。求めた x を含めて並べ替え直すことを忘れないようにしましょう。
5個のデータ 1, 2, 4, 5, 8 の分散と標準偏差を求めよ。
答え
分散 6、標準偏差 6
解説
まず平均値を求めます。
【方法1】偏差の2乗の平均で計算する
偏差は −3, −2, 0, 1, 4 なので
【方法2】「2乗の平均 − 平均の2乗」で計算する
x2 の平均は
なので
どちらの方法でも分散は 6、標準偏差は s=6 です。
2つの計算式で答えが一致することを確認すれば、それ自体が最強の検算になります。テストでも時間があれば両方で計算してみましょう。
8人の生徒がある月に図書室で借りた本の冊数は次の通りであった。
9, 3, 27, 5, 1, 9, 7, 3
四分位数 Q1、Q2、Q3 を求めよ。また、四分位範囲を R とするとき「Q1−1.5R より小さい値、または Q3+1.5R より大きい値を外れ値とする」という基準で、このデータに外れ値があれば求めよ。
答え
Q1=3、Q2=6、Q3=9。外れ値は 27
解説
まずデータを小さい順に並べ替えます。
8個(偶数個)なので、中央値は4番目と5番目の平均で
偶数個のときはデータをちょうど半分ずつに分けます。下半分は 1,3,3,5 で、その中央値は
上半分は 7,9,9,27 で、その中央値は
四分位範囲は R=Q3−Q1=9−3=6 です。外れ値の基準となる値を計算すると
−6 より小さい値はありません。18 より大きい値は 27 だけなので、外れ値は 27 です。
並べ替えを雑にやると全部ずれます。もとのデータの個数(8個)と並べ替え後の個数が一致しているか、指差し確認する習慣をつけましょう。
変量 x のデータの平均値が 5、標準偏差が 2 であるとき、変量 y=2x+3 のデータの平均値、分散、標準偏差を求めよ。
答え
平均値 13、分散 16、標準偏差 4
解説
変量の変換の公式 y=ax+b のとき yˉ=axˉ+b、sy2=a2sx2、sy=∣a∣sx を使います。ここでは a=2、b=3 です。
平均値は
x の標準偏差が 2 なので、x の分散は sx2=22=4。よって y の分散は
標準偏差は
(あるいは sy=16=4 と求めても同じです。)
ポイントは「+3 は平均だけを動かし、散らばりには影響しない」「2 倍すると分散は 22=4 倍になる」という2点です。分散を 2 倍にしてしまうミスが非常に多いので注意しましょう。
5人の生徒の数学の小テストの得点 x と英語の小テストの得点 y が次の通りであった。
(x,y)=(1,5), (2,4), (3,6), (4,8), (5,7)
x と y の共分散 sxy と相関係数 r を求めよ。
答え
sxy=1.6、r=0.8
解説
相関係数は r=sxsysxy で求めます。まず平均値から。
各組の偏差を並べると
x の偏差: −2, −1, 0, 1, 2
y の偏差: −1, −2, 0, 2, 1
分散はそれぞれ
なので sx=sy=2。共分散は偏差の積の平均で
したがって相関係数は
計算を整理する表(偏差、偏差の2乗、偏差の積を並べた表)を作ると、ミスが激減します。また r は必ず −1 以上 1 以下になるので、範囲を外れたら計算ミスです。
新商品AとBのどちらが好きかを7人に尋ねたところ、7人全員がAと答えた。「AとBの人気に差はない」と考えてよいか。基準となる確率を 5% として、仮説検定の考え方で判断せよ。
答え
「人気に差はない」という仮説は棄却され、Aの方が人気があると判断できる
解説
仮説検定では、判断したい主張(Aの方が人気がある)に反する仮説を立て、その仮説のもとで実際の結果が起こる確率を調べます。
仮説: AとBの人気に差はない。つまり、各人がAと答える確率は 21 である。
この仮説のもとで、7人全員がAと答える確率は
これは約 0.8% で、基準の 5% より小さい値です。
つまり、仮説が正しいとすると、確率約 0.8% しかない「めったに起こらないこと」が起きたことになります。これは仮説の方を疑うべきだと考えて、仮説を棄却します。
したがって、AとBの人気に差はないとはいえず、Aの方が人気があると判断できます。
答案では「仮説を立てる → 確率を計算する → 5% と比較する → 結論」という流れを明示することが大切です。確率が 5% 以上のときは「仮説を棄却できない(差があるとは判断できない)」となることにも注意しましょう。
5個のデータ 2, 4, 6, a, b(a<b)の平均値が 5、分散が 4 であるとき、a、b の値を求めよ。
答え
a=5、b=8
解説
平均値と分散の条件から、a+b と a2+b2 を求め、連立して解くのが定石です。
【条件1: 平均値】平均値が 5 なので
【条件2: 分散】分散の公式 s2=x2−(xˉ)2 を使うと
つまり x2 の合計は 29×5=145 なので
【連立して解く】(a+b)2=a2+2ab+b2 より
和が 13、積が 40 の2数は、2次方程式 t2−13t+40=0 の解です。因数分解して
a<b なので a=5、b=8 です。
検算: データは 2,4,6,5,8。合計 25 で平均 5 ✓。偏差は −3,−1,1,0,3 で、偏差の2乗の合計は 9+1+1+0+9=20、分散は 20÷5=4 ✓。
分散の条件は「偏差の2乗の平均」で立式してもよいですが、x2−(xˉ)2 を使う方が式が簡単になります。和と積が分かったら2次方程式に持ち込む、という流れは対称式の典型手法です。
あるクラスを2つの班に分けて小テストを行った。A班4人の平均値は 5 点、分散は 3、B班6人の平均値は 10 点、分散は 8 であった。10人全体の平均値と分散を求めよ。
答え
平均値 8 点、分散 12
解説
グループを合わせたデータの分散は、分散を単純に平均してはいけません。「合計」と「2乗の合計」に戻して計算するのが定石です。
【全体の平均値】各班の得点の合計は「平均 × 人数」なので、A班の合計は 5×4=20 点、B班の合計は 10×6=60 点です。
よって10人全体の平均値は
より 8 点です。
【全体の分散】分散の公式 s2=x2−(xˉ)2 を変形すると、各班の「2乗の平均」は
で求められます。
A班: x2=3+52=28 なので、2乗の合計は 28×4=112
B班: x2=8+102=108 なので、2乗の合計は 108×6=648
よって10人全体の2乗の平均は
したがって全体の分散は
全体の分散 12 が、各班の分散(3 と 8)のどちらよりも大きくなっていることに注目してください。これは、班の中の散らばりに加えて「班と班の平均値の差」による散らばりが上乗せされるためです。分散の平均 103×4+8×6=6 を答えにしてしまうのが最も多い誤りです。
2つの変量 x、y について、x の標準偏差が 2、y の標準偏差が 5、x と y の共分散が 6 である。
(1) x と y の相関係数 r を求めよ。
(2) 新しい変量を u=2x+1、v=−3y+2 で定めるとき、u と v の相関係数を求めよ。
答え
(1) r=0.6
(2) −0.6
解説
(1) 相関係数の定義式に代入します。
(2) 変量の変換が標準偏差と共分散に与える影響を順に調べます。
まず標準偏差。u=2x+1 では su=∣2∣sx=2×2=4、v=−3y+2 では sv=∣−3∣sy=3×5=15 です(標準偏差は負にならないので、係数には絶対値がつきます)。
次に共分散。u の偏差は u−uˉ=(2x+1)−(2xˉ+1)=2(x−xˉ)、v の偏差は v−vˉ=−3(y−yˉ) となるので、偏差の積は
その平均をとって
したがって u と v の相関係数は
一般に、u=ax+b、v=cy+d(a=0、c=0)と変換すると、相関係数の絶対値は変わらず、ac>0 なら符号もそのまま、ac<0 なら符号だけが反転します。「相関係数は単位の取り方によらない」という性質のあらわれで、記述式でもよく問われる重要ポイントです。