データの分析|データの散らばりについて その1

数学1

今回はデータの散らばりについて学習しましょう。平均値や中央値などの代表値は、データの特徴を知るのに役立ちます。しかし、データの全体像を把握するのにはあまり向いていません。データの全体像を把握するには、データがどのくらい散らばっているかといった、データの散らばりの度合いを調べる必要があります。

ここでは、どのような値がデータの全体像を把握するのに向いているのかを学習します。データの特徴だけでなく、データの散らばりも調べることで、データをより詳しく分析することができるようになります。

この単元で学習すること

「データの散らばり(その1)」では以下のような事柄を学習します。

  • 範囲
  • 四分位数
  • 四分位範囲
  • 四分位偏差
  • 箱ひげ図

データを扱うために色々な用語が定義されているので、1つずつ丁寧に確認していきましょう。

範囲

データの最大値と最小値の差範囲と言います。範囲が大きければ大きいほど、データが散らばっていると考えることができるので、この範囲だけでもデータの全体像を大まかに把握することができます。

データの範囲

(範囲)=(データの最大値)-(データの最小値)

データの値の個数を表す「データの大きさ」と間違えやすいので注意しましょう。

四分位数

データを値の大きさの順に並べたとき、データの個数を4等分する位置にある3つの値のことを四分位数と言います。小さい方から順に、第1四分位数第2四分位数第3四分位数と言い、これらを記号で1,Q2,Q3と表します。

四分位数の求め方にはコツがあります。まず、データを値の大きさの順に左から右に並べてから、データを中央値で2等分します。中央値が第2四分位数Q2になります。

たとえば、データの大きさが7とします。このとき、中央値は4番目の値となり、この値が第2四分位数Q2です。

また、データを2等分したので、左半分に第2四分位数Q2以下の値が並ぶ下位のデータができ、そして右半分に第2四分位数Q2以上の値が並ぶ上位のデータができます。

データを2等分する

\begin{align*} &\text{データ $1 \ , \ 2 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 7$ の第 $2$ 四分位数} \\[ 10pt ] &\quad 1 \ , \ 2 \ , \ 3 \ , \ | \ \underline{4} \ | \ , \ 5 \ , \ 6 \ , \ 7 \\[ 10pt ] &\text{$4$ …第 $2$ 四分位数 $Q_{\scriptsize{2}}$(中央値)} \\[ 5pt ] &\text{$1 \ , \ 2 \ , \ 3$ … 左半分のデータ(下位のデータ)} \\[ 5pt ] &\text{$5 \ , \ 6 \ , \ 7$ … 右半分のデータ(上位のデータ)} \end{align*}

次に下位と上位のデータにおいて、中央値をそれぞれ求めます。これらが第1四分位数Q1第3四分位数Q3になります。下位と上位のデータをそれぞれ2等分したので、データ全体では4等分したことになります。

下位と上位のデータをそれぞれ2等分する

\begin{align*} &\text{データ $1 \ , \ 2 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 7$ の第 $1 \ , \ 3$ 四分位数} \\[ 10pt ] &\quad 1 \ , \ \underline{2} \ , \ 3 \ , \ | \ 4 \ | \ , \ 5 \ , \ \underline{6} \ , \ 7 \\[ 10pt ] &\text{$2$ … 第 $1$ 四分位数 $Q_{\scriptsize{1}}$(下位のデータの中央値)} \\[ 5pt ] &\text{$4$ … 第 $2$ 四分位数 $Q_{\scriptsize{2}}$(中央値)} \\[ 5pt ] &\text{$6$ … 第 $3$ 四分位数 $Q_{\scriptsize{3}}$(上位のデータの中央値)} \end{align*}

データを4つに分けるには、境は3つあれば良いので、四分位数は4つではなく3つです。「つにける置を示す」と解釈すれば覚えやすいでしょう。なお、四分位数の定義は他にもあるそうですが、高校数学では上記のように定義されたものを用います。

四分位数の求め方の手順をまとめると以下のようになります。

四分位数の求め方

  1. データを小さい方から順に左から右へ並べる。
  2. 中央値(第2四分位数)を求める。また、左半分のデータを下位のデータ、右半分のデータを上位のデータとする。
  3. 下位のデータの中央値(第1四分位数)、上位のデータの中央値(第3四分位数)を求める。

四分位範囲と四分位偏差

データの散らばりの度合いを表すものとして、範囲の他に四分位範囲四分位偏差などがあります。第3四分位数から第1四分位数を引いた値四分位範囲と言います。先程紹介した「範囲」とは異なるので注意しましょう。一般に、以下のように表されます。

四分位範囲

\begin{align*} &\text{四分位範囲は} \\[ 5pt ] &\quad Q_{\scriptsize{3}} \ – Q_{\scriptsize{1}} \\[ 5pt ] &\text{と表される。ただし、} \\[ 5pt ] &\text{$Q_{\scriptsize{1}}$ … 第 $1$ 四分位数(下位のデータの中央値)} \\[ 5pt ] &\text{$Q_{\scriptsize{3}}$ … 第 $3$ 四分位数(上位のデータの中央値)} \end{align*}

また、四分位範囲を2で割った値四分位偏差と言います。一般に、以下のように表されます。

四分位偏差

\begin{align*} &\text{四分位偏差は} \\[ 5pt ] &\quad \frac{Q_{\scriptsize{3}} \ – Q_{\scriptsize{1}}}{2} \\[ 10pt ] &\text{と表される。ただし、} \\[ 5pt ] &\text{$Q_{\scriptsize{1}}$ … 第 $1$ 四分位数(下位のデータの中央値)} \\[ 5pt ] &\text{$Q_{\scriptsize{3}}$ … 第 $3$ 四分位数(上位のデータの中央値)} \end{align*}

先程のデータであれば、四分位範囲と四分位偏差は以下のようになります。

四分位範囲と四分位偏差

\begin{align*} &\text{データ $1 \ , \ 2 \ , \ 3 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 7$ について、} \\[ 10pt ] &\quad 1 \ , \ \underline{2} \ , \ 3 \ , \ | \ 4 \ | \ , \ 5 \ , \ \underline{6} \ , \ 7 \\[ 10pt ] &\text{第 $1 \ , \ 3$ 四分位数 $Q_{\scriptsize{1}} \ , \ Q_{\scriptsize{3}}$ は} \\[ 5pt ] &\quad Q_{\scriptsize{1}}=2 \ , \ Q_{\scriptsize{3}}=6 \\[ 5pt ] &\text{よって、四分位範囲は} \\[ 5pt ] &\quad Q_{\scriptsize{3}} \ – Q_{\scriptsize{1}}=6 \ – 2 = 4 \\[ 5pt ] &\text{また、四分位偏差は} \\[ 5pt ] &\quad \frac{Q_{\scriptsize{3}} \ – Q_{\scriptsize{1}}}{2} = \frac{6 \ – 2}{2} = 2 \end{align*}

範囲、四分位数、四分位範囲、四分位偏差を用いることで、データの散らばりの度合いを把握したり、他のデータと比較したりすることができます。

箱ひげ図

データの最小値、第1四分位数、中央値(第2四分位数)、第3四分位数、最大値を可視化したものを箱ひげ図と言います。名前の通り、長方形の箱とT字型の線(ひげ)を用いた図です。

箱ひげ図は、複数のデータ(たとえば年度別や地域別など)の分布を比較するときによく用いられます。複数のデータの箱ひげ図を並べることで、データの散らばりの度合いを比較しやすいのが特徴です。

箱ひげ図は以下のような図になります。長方形の箱とT字型の線(ひげ)を使って表します。最小値や第1四分位数など各種の値が、箱ひげ図のどこに対応しているのかをしっかり覚えましょう。

箱ひげ図

箱ひげ図によっては、データの平均値を記入する場合があります。平均値は、プラス(+)の記号で表しますが、特に指示がなければ記入しなくても構いません。

実際にデータをもとに箱ひげ図を書くと以下のようになります。

箱ひげ図の例

データの大きさが奇数のときと偶数のときとで異なるのは、四分位数の求め方です。データの大きさが偶数のとき、第1~3四分位数は、四分位数となる位置の前後にある2数の平均値となります。データの大きさが偶数のときは、厳密に言えばデータを4等分する位置に数がないからです。

例2(上図)のように、データの大きさが8のとき、中央値である第2四分位数は4番目と5番目の数5,6の平均値5.5です。

また、下位のデータは1番目から4番目までの数となり、そのときの中央値である第1四分位数は2番目と3番目の数4,4の平均値4です。

さらに、上位のデータは5番目から8番目までの数となり、そのときの中央値である第3四分位数は6番目と7番目の数6,7の平均値6.5です。

箱ひげ図を書く手順は、特に決まっていません。自分なりに書きやすい手順で書きましょう。

箱ひげ図と度数の関係

箱ひげ図を書くこと自体はそれほど難しくありません。難しいのは、箱ひげ図から正しく情報を読み取ることです。

実際、箱ひげ図から読み取れることの正誤を考える問題の方がよく出題されます。他には、新しい値が追加された後の箱ひげ図を予想する問題も出題されます。

これらの問題は、箱ひげ図から正しく情報を読み取れなければ難しい問題です。このような問題に対応するには、自分で箱ひげ図を書いた経験が必要です。

正誤問題で間違えやすいのが、度数の読み取りです。箱ひげ図はデータの散らばりの度合いを見たり、比べたりするものなので、度数は記入されていません。しかし、四分位数の性質を利用すれば、度数を読み取ることができます。

大きさが8のデータを例に四分位数と度数の関係を考えてみましょう。四分位数は以下のようになります。

四分位数と度数の関係

\begin{align*} &\text{データ $3 \ , \ 4 \ , \ 4 \ , \ 5 \ , \ 6 \ , \ 6 \ , \ 7 \ , \ 8$ の四分位数と度数の関係を考える。} \\[ 10pt ] &\quad 3 \ , \ 4 \ , \ (4) \ , \ 4 \ , \ 5 \ , \ (5.5) \ , \ 6 \ , \ 6 \ , \ (6.5) \ , \ 7 \ , \ 8 \\[ 10pt ] &\text{第 $1$ 四分位数 $Q_{\scriptsize{1}} = 4$} \\[ 5pt ] &\text{第 $2$ 四分位数 $Q_{\scriptsize{2}} = 5.5$} \\[ 5pt ] &\text{第 $3$ 四分位数 $Q_{\scriptsize{3}} = 6.5$} \\[ 5pt ] &\text{よって、} \\[ 5pt ] &\text{$Q_{\scriptsize{1}}$ までの度数は $2$} \\[ 5pt ] &\text{$Q_{\scriptsize{2}}$ までの度数は $4$} \\[ 5pt ] &\text{$Q_{\scriptsize{3}}$ までの度数は $6$} \end{align*}

データの大きさが偶数であれば、データが四分位数によってきれいに4等分(2個ずつに分割)されていることが分かります。このことから、特定の範囲にある度数の全体に占める割合が分かります。

四分位数と度数の関係を表す図

この割合を覚えておけば、データの大きさをもとに特定の範囲の度数を求めることができます。

度数の全体に占める割合(データの大きさが偶数のとき)

最小値から第1四分位数までの度数 … 度数全体の25%

最小値から第2四分位数までの度数 … 度数全体の50%

最小値から第3四分位数までの度数 … 度数全体の75%

データの大きさが奇数の場合、偶数の場合と異なり、およその度数になるので注意しましょう。箱ひげ図で見ると以下のようになります。

箱ひげ図と度数の関係

箱ひげ図を見て度数の割合を考えると、簡単に引っ掛かってしまいます。先程も言ったように、箱ひげ図はデータの散らばりの度合いを見るもので、度数ではなく、データの各値を用いて作成します。ですから、度数が等しい場合であっても、四分位数で分けられた4つの部分の幅が等しくなるとは限りません。各部分の幅のせいで度数が異なるように感じますが、データで見れば分かるように、度数は四分位数できちんと4等分されています。

箱ひげ図は、データの散らばりの度合いを見るもの。度数が等しいからと言って、四分位数で4等分された部分の幅が等しくなるわけではないことに注意しよう。

これまでに出てきた用語をまとめると、以下のようになります。

データの散らばり(その1)に関する用語

範囲 … データの最大値と最小値の差

四分位数 … データを値の大きさの順に並べたとき、4等分する位置にくる3つの値
四分位範囲 … 第3四分位数から第1四分位数を引いた値
四分位偏差 … 四分位範囲を2で割った値

箱ひげ図 … データの最小値、第1四分位数、中央値(第2四分位数)、第3四分位数、最大値を箱とひげ(直線)で表したもの

次は四分位数や箱ひげ図などを扱った問題を実際に解いてみましょう。