データの分析|データの散らばりについて その2

数学1

数学1 データの分析

分散や標準偏差などを扱った問題を解いてみよう

次の問題を解いてみましょう。

問1

$10$ 個の自然数からなるデータ

\begin{equation*} \quad 13 \ , \ 9 \ , \ a \ , \ 12 \ , \ 9 \ , \ 13 \ , \ 11 \ , \ b \ , \ 8 \ , \ 9 \end{equation*}

がある。これらの平均値が $10$ で、標準偏差が $2$ であるとき、$a \ , \ b$ の値を求めよ。

ただし、$a \lt b$ とする。

問1の解答・解説

問1は、平均値や標準偏差からもとのデータの値を求める問題です。公式を用いて、a,bについての方程式を導出できるかがポイントです。

平均値や分散を求めやすいように、表を利用します。

問1の解答例 1⃣

\begin{align*} \begin{array}{c|c|c} x_{\scriptsize{k}} & x_{\scriptsize{k}} \ – \overline{x} & \bigl(x_{\scriptsize{k}} \ – \overline{x} \bigr)^{\scriptsize{2}} \\[ 5pt ] \hline 13 & 3 & 9 \\[ 5pt ] \hline 9 & -1 & 1 \\[ 5pt ] \hline a & a-10 & (a-10)^{\scriptsize{2}} \\[ 5pt ] \hline 12 & 2 & 4 \\[ 5pt ] \hline 9 & -1 & 1 \\[ 5pt ] \hline 13 & 3 & 9 \\[ 5pt ] \hline 11 & 1 & 1 \\[ 5pt ] \hline b & b-10 & (b-10)^{\scriptsize{2}} \\[ 5pt ] \hline 8 & -2 & 4 \\[ 5pt ] \hline 9 & -1 & 1 \\[ 5pt ] \hline \scriptsize{\text{計}} & a + b -16 & (a-10)^{\scriptsize{2}} + (b-10)^{\scriptsize{2}} + 30 \end{array} \end{align*}

平均値がすでに分かっているので、偏差や偏差の2乗の欄にも値を記入しておきます。

一般に、平均値、分散、標準偏差の順に計算することが多い。3つの関係に合わせて表にまとめよう。

平均値や分散から方程式を導出しますが、表の計の欄に記入した数式を利用します。

また、平均値を求めるとき、そのまま公式を用いても問題ありませんが、ここでは以下のことを利用します。

偏差の和は必ず0になる ⇒ 「平均する=偏差の和を0にする」

この性質を利用すると、平均値の計算がいくらか楽になります。

問1の解答例 2⃣

\begin{align*} &\quad \vdots \\[ 7pt ] &\text{偏差の和は $0$ となるので、表より} \\[ 5pt ] &\quad a+b-16=0 \\[ 7pt ] &\text{よって} \\[ 5pt ] &\quad a+b=16 \quad \cdots \text{①} \\[ 7pt ] &\text{また、標準偏差が $2$ であるので、分散は $4$ となる。} \\[ 5pt ] &\text{よって} \\[ 5pt ] &\quad \frac{1}{10} \left\{(a-10)^{\scriptsize{2}} + (b-10)^{\scriptsize{2}} + 30 \right\} = 4 \\[ 7pt ] &\text{これを整理すると} \\[ 5pt ] &\quad (a-10)^{\scriptsize{2}} + (b-10)^{\scriptsize{2}} + 30 = 40 \\[ 7pt ] &\quad (a-10)^{\scriptsize{2}} + (b-10)^{\scriptsize{2}} – 10 = 0 \quad \cdots \text{②} \end{align*}

標準偏差は分散の正の平方根なので、分散は標準偏差を2乗した値です。分散から標準偏差を求めることは多いですが、その逆はあまり多くありません。気付きにくいので注意しましょう。

a,bについての方程式が2つ得られたので、これらを連立させて解きます。

問1の解答例 3⃣

\begin{align*} &\quad \vdots \\[ 7pt ] &\quad a + b = 16 \quad \cdots \text{①} \\[ 7pt ] &\quad (a-10)^{\scriptsize{2}} + (b-10)^{\scriptsize{2}} – 10 = 0 \quad \cdots \text{②} \\[ 7pt ] &\text{①より} \\[ 5pt ] &\quad b = -a + 16 \\[ 7pt ] &\text{を②に代入すると} \\[ 5pt ] &\quad (a-10)^{\scriptsize{2}} + (-a+16-10)^{\scriptsize{2}} – 10 = 0 \\[ 7pt ] &\quad (a-10)^{\scriptsize{2}} + (6-a)^{\scriptsize{2}} – 10 = 0 \\[ 7pt ] &\text{これを解くと} \\[ 5pt ] &\quad 2a^{\scriptsize{2}} – 32a + 126 = 0 \\[ 7pt ] &\quad a^{\scriptsize{2}} – 16a + 63 = 0 \\[ 7pt ] &\quad (a-7)(a-9) = 0 \\[ 7pt ] &\quad a = 7 \ , \ 9 \\[ 7pt ] &\text{①と $a \lt b$ より} \\[ 5pt ] &\quad a = 7 \ , \ b = 9 \end{align*}

単に公式を使うだけでなく、分散と標準偏差の意味や関係なども用いて方程式を導出する問題でした。そういう意味ではより実践的な問題でした。

次の問題を解いてみましょう。

問2

次のデータは、ある年のある年の月ごとの最低気温を並べたものである。

\begin{align*} &\quad -12 \ , \ -9 \ , \ -3 \ , \ 3 \ , \ 10 \ , \ 17 \ , \ 20 \ , \\[ 7pt ] &\qquad 19 \ , \ 15 \ , \ 7 \ , \ 1 \ , \ -8 \ \text{(単位は℃)} \end{align*}

$(1)$ このデータの平均値を求めよ。

$(2)$ このデータの中で入力ミスが見つかった。正しくは $-3$ ℃が $-1$ ℃、$3$ ℃が $2$ ℃、$19$ ℃が $18$ ℃であった。この入力ミスを修正すると、このデータの平均値と分散は、修正前と比べるとどうなるか。

問2は、データの修正によって、平均値や分散がどのように変化するかを考える問題です。入試では差がつきそうな問題です。

問2(1)の解答・解説

問2(1)

次のデータは、ある年のある年の月ごとの最低気温を並べたものである。

\begin{align*} &\quad -12 \ , \ -9 \ , \ -3 \ , \ 3 \ , \ 10 \ , \ 17 \ , \ 20 \ , \\[ 7pt ] &\qquad 19 \ , \ 15 \ , \ 7 \ , \ 1 \ , \ -8 \ \text{(単位は℃)} \end{align*}

このデータの平均値を求めよ。

問2(1)は、データの平均値を求める問題です。修正前のデータを表にまとめます。データの変量をxとし、データの総和を求めて表に記入しておきます。

問2(1)の解答例 1⃣

\begin{align*} \begin{array}{c|c} x_{\scriptsize{k}} & \scriptsize{\text{修正前}} \\[ 5pt ] \hline x_{\scriptsize{1}} & -12 \\[ 5pt ] \hline x_{\scriptsize{2}} & -9 \\[ 5pt ] \hline x_{\scriptsize{3}} & -3 \\[ 5pt ] \hline x_{\scriptsize{4}} & 3 \\[ 5pt ] \hline x_{\scriptsize{5}} & 10 \\[ 5pt ] \hline x_{\scriptsize{6}} & 17 \\[ 5pt ] \hline x_{\scriptsize{7}} & 20 \\[ 5pt ] \hline x_{\scriptsize{8}} & 19 \\[ 5pt ] \hline x_{\scriptsize{9}} & 15 \\[ 5pt ] \hline x_{\scriptsize{10}} & 7 \\[ 5pt ] \hline x_{\scriptsize{11}} & 1 \\[ 5pt ] \hline x_{\scriptsize{12}} & -8 \\[ 5pt ] \hline \scriptsize{\text{計}} & 60 & \end{array} \end{align*}

表の計の欄を参考にして、データの平均値を求めます。

問2(1)の解答例 2⃣

\begin{align*} &\quad \vdots \\[ 7pt ] &\text{データの総和は $60$ より、平均値は} \\[ 5pt ] &\quad \frac{60}{12} = 5 \ \text{(℃)} \end{align*}

表を利用すると、長い式を記述しなくて良いので便利です。また、値を桁を揃えて記入していけば計算しやすくなります。

問2(2)の解答・解説

問2(2)

次のデータは、ある年のある年の月ごとの最低気温を並べたものである。

\begin{align*} &\quad -12 \ , \ -9 \ , \ -3 \ , \ 3 \ , \ 10 \ , \ 17 \ , \ 20 \ , \\[ 7pt ] &\qquad 19 \ , \ 15 \ , \ 7 \ , \ 1 \ , \ -8 \ \text{(単位は℃)} \end{align*}

このデータの中で入力ミスが見つかった。正しくは $-3$ ℃が $-1$ ℃、$3$ ℃が $2$ ℃、$19$ ℃が $18$ ℃であった。この入力ミスを修正すると、このデータの平均値と分散は、修正前と比べるとどうなるか。

問2(2)は、データに修正があったとき、修正の前後で平均値や分散がどのように変化するかを考える問題です。先程の表に修正後のデータを追記します。

問2(2)の解答例 1⃣

\begin{align*} \begin{array}{c|c|c} x_{\scriptsize{k}} & \scriptsize{\text{修正前}} & \scriptsize{\text{修正後}} \\[ 5pt ] \hline x_{\scriptsize{1}} & -12 & -12 \\[ 5pt ] \hline x_{\scriptsize{2}} & -9 & -9 \\[ 5pt ] \hline x_{\scriptsize{3}} & -3 & \underline{-1} \\[ 5pt ] \hline x_{\scriptsize{4}} & 3 & \underline{2} \\[ 5pt ] \hline x_{\scriptsize{5}} & 10 & 10 \\[ 5pt ] \hline x_{\scriptsize{6}} & 17 & 17 \\[ 5pt ] \hline x_{\scriptsize{7}} & 20 & 20 \\[ 5pt ] \hline x_{\scriptsize{8}} & 19 & \underline{18} \\[ 5pt ] \hline x_{\scriptsize{9}} & 15 & 15 \\[ 5pt ] \hline x_{\scriptsize{10}} & 7 & 7 \\[ 5pt ] \hline x_{\scriptsize{11}} & 1 & 1 \\[ 5pt ] \hline x_{\scriptsize{12}} & -8 & -8 \\[ 5pt ] \hline \scriptsize{\text{計}} & 60 & \end{array} \end{align*}

修正後のデータの総和を求めても良いのですが、以下のことに注目します。

平均値の変化

\begin{equation*} \quad \scriptsize{\text{平均値} = \frac{\text{データの総和}}{\text{データの大きさ}}} \end{equation*}

データの大きさが変わらなければ、平均値はデータの総和で変化する。

データの大きさは変化しないので、平均値はデータの総和によって変化します。ですから、データが変更された箇所だけに注目して、データの総和が修正の前後でどれだけ変わったかを考えます。

問2(2)の解答例 2⃣

\begin{align*} &\begin{array}{c|c|c|c} x_{\scriptsize{k}} & \scriptsize{\text{修正前}} & \scriptsize{\text{修正後}} & \scriptsize{\text{変化量}} \\[ 5pt ] \hline x_{\scriptsize{3}} & -3 & \underline{-1} & +2 \\[ 5pt ] \hline x_{\scriptsize{4}} & 3 & \underline{2} & -1 \\[ 5pt ] \hline x_{\scriptsize{8}} & 19 & \underline{18} & -1 \\[ 5pt ] \hline \scriptsize{\text{計}} & 19 & 19 & 0 \end{array} \\[ 10pt ] &\text{データの修正による変化量は} \\[ 5pt ] &\quad \{ (-1)-(-3) \} + ( 2-3 ) + (18-19) = 0 \ \text{(℃)} \end{align*}

となるので、データの修正によってデータの総和は変化しない。

よって、データの平均値は修正前と一致する。

データの値が一部変わったので、それに伴って平均値も変わりそうです。しかし、データの総和に変化がないので、平均値は修正前と変わりません。

問2のように、データの値が多かったり、正負の数が混在したりすると、計算ミスをしやすくなります。ですから、問2(2)のように、性質を上手に利用して計算を工夫することも大切です。

次は、分散を求めますが、以下のことに注目します。

分散の変化

\begin{equation*} \quad \scriptsize{\text{分散} = \frac{\text{偏差の $2$ 乗の総和}}{\text{データの大きさ}}} \end{equation*}
データの大きさが変わらなければ、分散は偏差の2乗の総和で変化する。

データの大きさは変化しないので、分散は偏差の2乗の総和によって変化します。ですから、データが変更された箇所だけに注目して、偏差の2乗の総和が修正の前後でどれだけ変わったかを考えます。

問2(2)の解答例 3⃣

\begin{align*} &\begin{array}{c|c|c|c|c|c|c} x_{\scriptsize{k}} & \scriptsize{\text{修正前}} & \scriptsize{\text{修正前の偏差}} & \scriptsize{\text{修正前の偏差の $2$ 乗}} & \scriptsize{\text{修正後}} & \scriptsize{\text{修正後の偏差}} & \scriptsize{\text{修正前の偏差の $2$ 乗}} \\[ 5pt ] \hline x_{\scriptsize{3}} & -3 & -8 & 64 & \underline{-1} & -6 & 36 \\[ 5pt ] \hline x_{\scriptsize{4}} & 3 & -2 & 4 & \underline{2} & -3 & 9 \\[ 5pt ] \hline x_{\scriptsize{8}} & 19 & 14 & 196 & \underline{18} & 13 & 169 \\[ 5pt ] \hline \scriptsize{\text{計}} & 19 & 4 & 264 & 19 & 4 & 214 \end{array} \\[ 10pt ] &\text{修正のあった値において、修正前の偏差の $2$ 乗の和は} \\[ 5pt ] &\quad (-3-5)^{\scriptsize{2}} + (3-5)^{\scriptsize{2}} + (19-5)^{\scriptsize{2}} = 264 \\[ 7pt ] &\text{修正のあった値において、修正後の偏差の $2$ 乗の和は} \\[ 5pt ] &\quad (-1-5)^{\tiny{2}} + (2-5)^{\scriptsize{2}} + (18-5)^{\scriptsize{2}} = 214 \\[ 7pt ] &\text{となる。} \\[ 5pt ] &\quad 214 \lt 264 \end{align*}

より、偏差の $2$ 乗の総和は修正によって減少する。

よって、データの分散は修正前より減少する。

1つの表にまとめましたが、修正の前後で書き分けても構いません。自分なりに見やすさや扱いやすさを考えてまとめると良いでしょう。

問2(2)のような問題は、公式を覚えただけでは解くことが難しい問題です。このような問題を数多く演習することで、公式への理解が深まります。めげずに何度も挑戦しましょう。

データに修正があったとき、修正箇所に注目しよう。

Recommended books

データの分析を扱った問題は、測定値や観測値が多いと手際よく表やグラフを使って整理していく必要があります。また、表やグラフの目の付け所も知っておかなければなりません。こればかりは頭で分かっていても、実際に整理したり、表やグラフを扱ったりしたことがないと手際よくできません。

ただ、データを手早く扱うコツや表やグラフから読み取るコツを掴んでしまえば、得点源にできる単元です。単元別の問題集で集中的に取り組んでマスターしましょう。

これから紹介する教材で気になるものがあれば、ぜひ一読してみて下さい。気に入ったら最後まで徹底的にこなしましょう。

オススメその1『教科書だけでは足りない 大学入試攻略 7日間完成 データの分析

教科書だけでは足りない 大学入試攻略 7日間完成 データの分析』は、「データの分析」の学習を短期間でこなすための教材です。1日60分の学習を7日間で完成させることができます。短期間で周回できます。また、教科書レベルから扱っているので、基礎から習得できます。

内容をできる限り絞り、短時間で「データの分析」の学習が一通りできるようにしました。また、微妙な違いがわかることが必要な「図の読み取り」については、多くの図を掲載し、違いが判断できるようにしました。「計算方法」については、効率よく計算を行うことを最優先に、その計算方法を徹底的にマスターできるようにしました。

オススメその2『改訂版 佐々木隆宏の数学I「データの分析」が面白いほどわかる本

改訂版 佐々木隆宏の数学I「データの分析」が面白いほどわかる本』は、参考書兼問題集です。教科書よりも丁寧に解説されているので、教科書で躓いてもこれでカバーできます。算数から扱っているので、自習でも躓きにくくなっています。

小学校の算数における資料の調べ方から始めて、高等学校の数学1における「データの分析」までを扱った「統計分野」の参考書。中学校までの復習を扱った「ホームルーム」、数学1データの分析で学習する内容をていねいに説明した「授業」、あらゆる問題形式(センター形式や記述式)を演習する「講習」の3部構成。好評だった初版のよいところを活かしつつ、2015年から実施された現行課程下の入試でのセンター試験の問題を追加したほか、私大・国公立入試で出題された問題のうち、とくに重要かつ今後の出題が見込まれるものを収録。

オススメその3『ふたたびの確率・統計[2]統計編

ふたたびの確率・統計[2]統計編』は、学び直しの人だけでなく、初学者も意識して書かれています。

本書に収められている統計の内容は、高校数学における統計の全単元を網羅しています。項目の詳細は、現指導要領に含まれる内容だけでなく、令和4年(2022 年)度から実施予定の新指導要領で新たに盛り込まれる内容も、統計に関するものはすべてカバーしているのが特徴です。

公式と記号の意味を理解しながら使いこなす!「統計」という訳語をひねり出した明治人の奮闘から、「戦死」の実態を統計で視覚化した白衣の天使の話、100人中62人がその効果を認めたダイエットサポート飲料の判定まで、「統計リテラシー」の核心に迫る。

確率編の方が先です。

さいごにもう一度まとめ

  • データの散らばりの度合いを知るには、分散や標準偏差などを利用しよう。
  • 偏差は、各値と平均値との差。正負の数になるので注意しよう。
  • 分散は、偏差の2乗の平均値。単位は測定単位の2乗となる。
  • 標準偏差は、分散の正の平方根。単位は測定単位と同じ。
  • 偏差や偏差の2乗を表にまとめておくと、計算ミスしにくい。