データの分析|データの代表値について

数学1

数学1 データの分析

今回はデータの代表値について学習しましょう。データの様子を知ることができるのが代表値ですが、その代表値にも色々あります。ここでは基本的なものを学習します。

この単元で学習すること

「データの代表値」では以下のような事柄を学習します。

データの代表値で学習する事柄

  • データの大きさと代表値
  • 平均値
  • 中央値(メジアン)
  • 最頻値(モード)

データを扱うために色々な用語が定義されているので、1つずつ丁寧に確認していきましょう。

データの大きさと代表値

データとは、調査や実験などで得られた変量の観測値や測定値の集まりのことでした。

このデータを構成する観測値や測定値の個数のことをデータの大きさと言います。観測値や測定値の個数が多ければ多いほど、データの大きさは大きくなります。

また、データ全体の特徴を適当な1つの数値で表すとき、その数値をデータの代表値と言います。代表値を見れば、データ全体の特徴を知ることができます。

データの代表値には、たとえば、以下の数値があります。

データの代表値

  • 平均値
  • 中央値(メジアン)
  • 最頻値(モード)

データの平均値

データの平均値は、「データの分析」の単元で最も利用する数値と言っても良いかもしれません。平均値は、データの値の総和をデータの大きさで割った値のことです。一般に、以下のように表されます。

データの平均値

大きさ $n$ のデータの値を

\begin{align*} \quad x_{1} \ , \ x_{2} \ , \ \cdots \ , \ x_{n} \end{align*}

とするとき

\begin{align*} \quad \overline{x} = \frac{1}{n} ( x_{1} + x_{2} + \cdots + x_{n} ) \end{align*}

または

\begin{align*} \quad \overline{x} = \frac{1}{n} \displaystyle \sum_{ k = 1 }^{ n } x_{k} \end{align*}

(数列の知識があれば、文字式ではこちらの方が扱いやすい)

たとえば、平均値の計算は以下のようになります。

【例】平均値の計算

データ $2 \ , \ 3 \ , \ 5 \ , \ 6$ の平均値

\begin{align*} \quad \overline{x} &= \frac{1}{4} ( 2 + 3 + 5 + 6 ) \\[ 7pt ] &= \frac{1}{4} \cdot 16 \\[ 7pt ] &= 4 \end{align*}

データの値の総和(2+3+5+6)をデータの大きさ(個数)4で割る割り算をします。データの分析では、平均値を求めることからスタートすることが多いので、きちんと計算できるようにしておきましょう。

データの中央値(メジアン)

データの中央値(メジアン)は、データを値の大きさの順に並べたとき、中央の位置にくる値のことです。データを値の大きさの順に並べ替えることに注意しましょう。

データの大きさが偶数か奇数かによって、中央値の求め方は異なります。データの大きさが奇数であれば、中央の位置にくる値は1つだけですが、データの大きさが偶数であれば、中央の位置にくる値がありません。

データの大きさと中央値

  • 奇数のとき…○○●○○(●が中央値)
  • 偶数のとき…○○●●○○(2つの●の平均値が中央値)

データの大きさが奇数のとき、中央の位置にくる値をそのまま中央値とします。たとえば、データの大きさが5個であれば、3番目の値が中央値になります。

それに対して、データの大きさが偶数のとき、中央の2つの値の平均値を中央値とします。たとえば、データの大きさが6個であれば、3番目と4番目の値の平均値が中央値になります。

たとえば、中央値の計算は以下のようになります。

【例】中央値の計算

データ $1 \ , \ 3 \ , \ 6 \ , \ 7 \ , \ 8$ の中央値は $6$

データ $2 \ , \ 3 \ , \ 6 \ , \ 8$ の中央値は

\begin{align*} \quad \frac{3 + 6}{2} = 4.5 \end{align*}

データの大きさが奇数のときは、中央の値をそのまま抜き出せば良いので計算することはありません。

データの最頻値(モード)

データによっては、同じ数値がいくつもある場合があります。データの最頻値(モード)は、データにおいて、最も個数の多い値のことです。最頻値は、データにおいて、最も度数の大きい値とも言えます。

なお、データが度数分布表に整理されていて、個々の値が分からないときがあります。そのようなときは、度数が最も大きい階級の階級値を最頻値とすることになっています。

これまでに出てきた用語をまとめると、以下のようになります。

データの代表値に関する用語

  • データの大きさ … データを構成する観測値や測定値の個数
  • データの代表値 … データ全体の特徴を表す数値
  • 平均値 … データの値の総和をデータの大きさで割った値
  • 中央値(メジアン)… データを値の大きさの順に並べたときの中央の値
  • 最頻値(モード) … データにおいて最も個数の多い値

次は、データの代表値を扱った問題を実際に解いてみましょう。