データの分析|データの散らばりについて その2

01/09/2019数学1データの分析,平均値,偏差,標準偏差,分散

分散や標準偏差などを扱った問題を解いてみよう

次の問題を解いてみましょう。

問1
$10$ 個の自然数からなるデータ
$\quad 13 \ , \ 9 \ , \ a \ , \ 12 \ , \ 9 \ , \ 13 \ , \ 11 \ , \ b \ , \ 8 \ , \ 9$
がある。これらの平均値が $10$ で、標準偏差が $2$ であるとき、$a \ , \ b$ の値を求めよ。
ただし、$a \lt b$ とする。

問1の解答・解説

問1は、平均値や標準偏差からもとのデータの値を求める問題です。公式を用いて、$a \ , \ b$ についての方程式を導出できるかがポイントです。

平均値や分散を求めやすいように、表を利用します。

問1の解答例
\begin{array}{c|c|c}
x_{\scriptsize{k}} & x_{\scriptsize{k}} \ – \overline{x} & \bigl(x_{\scriptsize{k}} \ – \overline{x} \bigr)^{\tiny{2}} \\
\hline
13 & 3 & 9 \\
\hline
9 & -1 & 1 \\
\hline
a & a-10 & (a-10)^{\tiny{2}} \\
\hline
12 & 2 & 4 \\
\hline
9 & -1 & 1 \\
\hline
13 & 3 & 9 \\
\hline
11 & 1 & 1 \\
\hline
b & b-10 & (b-10)^{\tiny{2}} \\
\hline
8 & -2 & 4 \\
\hline
9 & -1 & 1 \\
\hline
\scriptsize{\text{計}} & a + b -16 & (a-10)^{\tiny{2}} + (b-10)^{\tiny{2}} + 30
\end{array}

平均値がすでに分かっているので、偏差や偏差の2乗の欄にも値を記入しておきます。

一般に、平均値、分散、標準偏差の順に計算することが多い。3つの関係に合わせて表にまとめよう。

平均値や分散から方程式を導出しますが、表の計の欄に記入した数式を利用します。また、平均値を求めるとき、そのまま公式を用いても問題ありませんが、ここでは以下のことを利用します。

偏差の和は必ず0になる
「平均する=偏差の和を0にする」

この性質を利用すると、平均値の計算がいくらか楽になります。

問1の解答例つづき
\begin{align*}
&\text{偏差の和は $0$ となるので、} \\[ 5pt ]
&\quad a+b-16=0 \\[ 5pt ]
&\text{よって、} \\[ 5pt ]
&\quad a+b=16 \quad \text{…①} \\[ 10pt ]
&\text{また、標準偏差が $2$ であるので、分散は $4$ となる。} \\[ 5pt ]
&\text{よって、} \\[ 5pt ]
&\quad \frac{1}{10} \Bigl\{(a-10)^{\tiny{2}} + (b-10)^{\tiny{2}} + 30 \Bigr\} = 4 \\[ 5pt ]
&\text{これを整理すると、} \\[ 5pt ]
&\quad (a-10)^{\tiny{2}} + (b-10)^{\tiny{2}} + 30 = 40 \\[ 5pt ]
&\quad (a-10)^{\tiny{2}} + (b-10)^{\tiny{2}} – 10 = 0 \quad \text{…②}
\end{align*}

標準偏差は分散の正の平方根なので、分散は標準偏差を2乗した値です。$a \ , \ b$ についての方程式が2つ得られたので、これらを連立して解きます。

問1の解答例つづき
\begin{align*}
&\quad a + b = 16 \quad \text{…①} \\[ 5pt ]
&\quad (a-10)^{\tiny{2}} + (b-10)^{\tiny{2}} – 10 = 0 \quad \text{…②} \\[ 10pt ]
&\text{①より} \\[ 5pt ]
&\quad b = -a + 16 \\[ 5pt ]
&\text{を②に代入すると、} \\[ 5pt ]
&\quad (a-10)^{\tiny{2}} + (-a+16-10)^{\tiny{2}} – 10 = 0 \\[ 5pt ]
&\quad (a-10)^{\tiny{2}} + (6-a)^{\tiny{2}} – 10 = 0 \\[ 5pt ]
&\text{これを解くと、} \\[ 5pt ]
&\quad 2a^{\tiny{2}} – 32a + 126 = 0 \\[ 5pt ]
&\quad a^{\tiny{2}} – 16a + 63 = 0 \\[ 5pt ]
&\quad (a-7)(a-9) = 0 \\[ 5pt ]
&\quad a = 7 \ , \ 9 \\[ 5pt ]
&\text{①と $a \lt b$ より、} \\[ 5pt ]
&\quad a = 7 \ , \ b = 9
\end{align*}

公式を上手に用いて方程式を導出する問題でした。公式に値を代入して、分散や標準偏差などを求める問題に比べると、より実践的な問題になります。

次の問題を解いてみましょう。

問2
次のデータは、ある年のある年の月ごとの最低気温を並べたものである。
$\quad -12 \ , \ -9 \ , \ -3 \ , \ 3 \ , \ 10 \ , \ 17 \ , \ 20 \ , \ 19 \ , \ 15 \ , \ 7 \ , \ 1 \ , \ -8$ (単位は℃)
(1) このデータの平均値を求めよ。
(2) このデータの中で入力ミスが見つかった。正しくは $-3$ ℃が $-1$ ℃、$3$ ℃が $2$ ℃、$19$ ℃が $18$ ℃であった。この入力ミスを修正すると、このデータの平均値と分散は、修正前と比べるとどうなるか。

問2の解答・解説

問2は、データの修正によって、平均値や分散がどのように変化するかを考える問題です。入試では差がつきそうな問題です。問2(1)の平均値を求めるために、修正前のデータを表にまとめます。

問2(1)の解答例
\begin{array}{c|c}
x_{\scriptsize{k}} & \scriptsize{\text{修正前}} \\
\hline
x_{\scriptsize{1}} & -12 \\
\hline
x_{\scriptsize{2}} & -9 \\
\hline
x_{\scriptsize{3}} & -3 \\
\hline
x_{\scriptsize{4}} & 3 \\
\hline
x_{\scriptsize{5}} & 10 \\
\hline
x_{\scriptsize{6}} & 17 \\
\hline
x_{\scriptsize{7}} & 20 \\
\hline
x_{\scriptsize{8}} & 19 \\
\hline
x_{\scriptsize{9}} & 15 \\
\hline
x_{\scriptsize{10}} & 7 \\
\hline
x_{\scriptsize{11}} & 1 \\
\hline
x_{\scriptsize{12}} & -8 \\
\hline
\scriptsize{\text{計}} & 60 &
\end{array}

データの変量を $x$ とし、データの総和を求めて表に記入しておきます。データの平均値を求めます。

問2(1)の解答例つづき
\begin{align*}
&\text{データの総和は $60$ より、平均値は} \\[ 5pt ]
&\quad \frac{60}{12} = 5 \quad \text{(℃)}
\end{align*}
問2(2)
(2) このデータの中で入力ミスが見つかった。正しくは $-3$ ℃が $-1$ ℃、$3$ ℃が $2$ ℃、$19$ ℃が $18$ ℃であった。この入力ミスを修正すると、このデータの平均値と分散は、修正前と比べるとどうなるか。

問2(2)は、データに修正があったとき、修正の前後で平均値や分散がどのように変化するかを考える問題です。先程の表に修正後のデータを追記します。

問2(2)の解答例
\begin{array}{c|c|c}
x_{\scriptsize{k}} & \scriptsize{\text{修正前}} & \scriptsize{\text{修正後}} \\
\hline
x_{\scriptsize{1}} & -12 & -12 \\
\hline
x_{\scriptsize{2}} & -9 & -9 \\
\hline
x_{\scriptsize{3}} & -3 & \underline{-1} \\
\hline
x_{\scriptsize{4}} & 3 & \underline{2} \\
\hline
x_{\scriptsize{5}} & 10 & 10 \\
\hline
x_{\scriptsize{6}} & 17 & 17 \\
\hline
x_{\scriptsize{7}} & 20 & 20 \\
\hline
x_{\scriptsize{8}} & 19 & \underline{18} \\
\hline
x_{\scriptsize{9}} & 15 & 15 \\
\hline
x_{\scriptsize{10}} & 7 & 7 \\
\hline
x_{\scriptsize{11}} & 1 & 1 \\
\hline
x_{\scriptsize{12}} & -8 & -8 \\
\hline
\scriptsize{\text{計}} & 60 &
\end{array}

修正後のデータの総和を求めても良いのですが、以下のことに注目します。

平均値の変化
\begin{equation*}
\text{平均値} = \frac{\text{データの総和}}{\text{データの大きさ}}
\end{equation*}
データの大きさが変わらなければ、平均値はデータの総和で変化することに注目。

データの大きさは変化しないので、平均値はデータの総和によって変化します。ですから、データが変更された箇所だけに注目して、データの総和が修正の前後でどれだけ変わったかを考えます。

問2(2)の解答例つづき
\begin{align*}
&\begin{array}{c|c|c|c}
x_{\scriptsize{k}} & \scriptsize{\text{修正前}} & \scriptsize{\text{修正後}} & \scriptsize{\text{変化量}} \\
\hline
x_{\scriptsize{3}} & -3 & \underline{-1} & +2 \\
\hline
x_{\scriptsize{4}} & 3 & \underline{2} & -1 \\
\hline
x_{\scriptsize{8}} & 19 & \underline{18} & -1 \\
\hline
\scriptsize{\text{計}} & 19 & 19 & 0
\end{array} \\[ 10pt ]
&\text{データの修正による変化量は} \\[ 5pt ]
&\quad \{ (-1)-(-3) \} + ( 2-3 ) + (18-19) = 0 \quad \text{(℃)} \\[ 5pt ]
&\text{となるので、データの修正によってデータの総和は変化しない。} \\[ 5pt ]
&\text{よって、データの平均値は修正前と一致する。}
\end{align*}

データの大きさが大きくなるほど計算ミスをしやすくなります。また、問2のように、正負の数が混在する場合であれば、計算ミスの可能性がより高くなるので、計算を工夫するのも大切です。

次は、分散を求めますが、以下のことに注目します。

分散の変化
\begin{equation*}
\text{分散} = \frac{\text{偏差の2乗の総和}}{\text{データの大きさ}}
\end{equation*}
データの大きさが変わらなければ、分散は偏差の2乗の総和で変化することに注目。

データの大きさは変化しないので、分散は偏差の2乗の総和によって変化します。ですから、データが変更された箇所だけに注目して、偏差の2乗の総和が修正の前後でどれだけ変わったかを考えます。

問2(2)の解答例つづき
\begin{align*}
&\begin{array}{c|c|c|c|c|c|c}
x_{\scriptsize{k}} & \scriptsize{\text{修正前}} & \scriptsize{\text{修正前の偏差}} & \scriptsize{\text{修正前の偏差の2乗}} & \scriptsize{\text{修正後}} & \scriptsize{\text{修正後の偏差}} & \scriptsize{\text{修正前の偏差の2乗}} \\
\hline
x_{\scriptsize{3}} & -3 & -8 & 64 & \underline{-1} & -6 & 36 \\
\hline
x_{\scriptsize{4}} & 3 & -2 & 4 & \underline{2} & -3 & 9 \\
\hline
x_{\scriptsize{8}} & 19 & 14 & 196 & \underline{18} & 13 & 169 \\
\hline
\scriptsize{\text{計}} & 19 & 4 & 264 & 19 & 4 & 214
\end{array} \\[ 10pt ]
&\text{修正のあった値において、修正前の偏差の2乗の和は} \\[ 5pt ]
&\quad (-3-5)^{\tiny{2}} + (3-5)^{\tiny{2}} + (19-5)^{\tiny{2}} = 264 \\[ 5pt ]
&\text{修正のあった値において、修正後の偏差の2乗の和は} \\[ 5pt ]
&\quad (-1-5)^{\tiny{2}} + (2-5)^{\tiny{2}} + (18-5)^{\tiny{2}} = 214 \\[ 5pt ]
&\text{となる。} \\[ 5pt ]
&\quad 214 \lt 264 \\[ 5pt ]
&\text{より、偏差の2乗の総和も修正によって減少する。} \\[ 5pt ]
&\text{よって、データの分散は修正前より減少する。}
\end{align*}

表は1つにまとめましたが、修正の前後で書き分けても構いません。自分なりに見やすさや扱いやすさを考えてまとめると良いでしょう。

問2(2)のような問題は、公式を覚えただけでは解くことが難しい問題です。このような問題を数多く演習することで、公式への理解が深まります。めげずに何度も挑戦しましょう。

データに修正があったとき、修正箇所に注目しよう。
Recommended books

データの分析を扱った問題は、測定値や観測値が多いと手際よく表やグラフを使って整理していく必要があります。また、表やグラフの目の付け所も知っておかなければなりません。こればかりは頭で分かっていても、実際に整理したり、表やグラフを扱ったりしたことがないと手際よくできません。

ただ、データを手早く扱うコツや表やグラフから読み取るコツを掴んでしまえば、得点源にできる単元です。単元別の問題集で集中的に取り組んでマスターしましょう。

これから紹介する教材で気になるものがあれば、ぜひ一読してみて下さい。気に入ったら最後まで徹底的にこなしましょう。

オススメその1

『[affi id=65]』は、「データの分析」の学習を短期間でこなすための教材です。教科書レベルから扱っているので、基礎から習得できます。

短時間で「データの分析」の学習が一通りできるように作成した問題集。図の読み取りについては、微妙な違いがわかることが必要となる場合には、違いが判断できるように多くの図を掲載。計算方法については、実際に問題を解くとき効率よく計算を行うことを最優先にして、その計算方法を徹底的にマスターできるように配慮。

[affi id=64]

オススメその2

『[affi id=67]』は、参考書兼問題集です。教科書よりも丁寧に解説されているので、教科書で躓いてもこれでカバーできます。算数から扱っているので、自習でも躓きにくくなっています。

小学校の算数における資料の調べ方から始めて、高等学校の数学Iにおける「データの分析」までを扱った「統計分野」の参考書。中学校までの復習を扱った「ホームルーム」、数学I データの分析で学習する内容をていねいに説明した「授業」、あらゆる問題形式(センター形式や記述式)を演習する「講習」の3部構成。

[affi id=66]

オススメその3

『[affi id=69]』は、メダカカレッジの大上丈彦先生が統計学の基本をまとめた1冊です。「ゆる~いけど、鋭い! 」イラストが人気です。

統計学全般を扱っているので、数学Bの「確率分布と統計的推測」についても解説されています。「確率分布と統計的推測」はベクトルや数列よりも問題に対処しやすいので、ベクトルや数列がどうしても苦手な人は取り組んでみると良いでしょう。

統計学というと「なんだか難しそうだな」と思うかもしれませんが、ポイントをしっかり押さえ、
あまり本質的でないところにこだわらなければ、誰にでも確実に理解できます。
「統計学ってなに?」という素朴な疑問から、マンガでゆる~く解説し、読み終わったときには、
知らないうちに統計学が身に付いているという、いままでにない統計学の入門書です。

[affi id=68]

さいごにもう一度まとめ

  • データの散らばりの度合いを知るには、分散や標準偏差などを利用しよう。
  • 偏差は、各値と平均値との差。正負の数になるので注意しよう。
  • 分散は、偏差の2乗の平均値。単位は測定単位の2乗となる。
  • 標準偏差は、分散の正の平方根。単位は測定単位と同じ。
  • 偏差や偏差の2乗を表にまとめておくと、計算ミスしにくい。