データの分析|データの整理について

12/29/2018数学1データの分析,階級,階級値,度数,度数分布表,ヒストグラム,相対度数

今回から数学1の「データの分析」について学習します。最初の単元は「データの整理」です。データのことやデータの整理について学習します。新しい用語や定理などが出てくるので、できるだけ早く、そして正確に覚えましょう。

この単元で学習すること

「データの整理」では以下のような事柄を学習します。

  • データについて
  • 度数分布表
  • ヒストグラム

データを扱うために色々な用語が定義されているので、1つずつ丁寧に確認していきましょう。

データについて

テストの得点や短距離走のタイムなどのように、ある集団を構成する人や物の特性を数量的に表す量のことを変量と言います。また、調査や実験などで得られた変量の観測値や測定値の集まりのことをデータと言います。

変量とデータの一例
A,B,Cの3人が受けた数学のテストの得点が70点、73点、87点だったとすると、
変量…数学のテストの得点
データ…70点、73点、87点

データの整理について

データが少ないうちは問題ありませんが、データが多くなってくると、そのままでは分析するのが困難になってきます。データを比較したり、傾向を分析したりするためには、データを整理することが必要になります。

データを整理するとき、データの値の範囲をいくつかの区間に区切ると扱いやすくなります。このときの区間のことを階級と言います。また、区間の幅のことを階級の幅階級の真ん中の値階級値と言います。

いくつかの区間(階級)に区切ると、各データはその値に応じた階級に入ります。各階級に入ったデータの個数のことを度数と言います。各階級ごとに度数が決まるので、これを表にまとめることができます。このように各階級に度数を対応させた表のことを度数分布表と言います。また、各階級の度数の全体に対する割合のことを、その階級の相対度数と言います。

度数分布表を用いてデータを整理しよう

たとえば、以下のような生徒20人の身長の測定値を度数分布表にまとめてみましょう。

【例】生徒20人の身長の測定値
172.1 165.3 158.2 174.2 155.3
173.7 163.4 154.1 176.6 161.3
175.8 152.7 176.6 167.9 166.8
177.5 166.4 173.9 171.9 156.5
ただし、単位はcmである。

階級の幅を5cmとして度数分布表にまとめると、以下のようになります。

階級(cm) 度数(人)
175.0以上~180.0未満 4
170.0以上~175.0未満 5
165.0以上~170.0未満 4
160.0以上~165.0未満 2
155.0以上~160.0未満 3
150.0以上~155.0未満 2
20

問題によっては、階級値や相対度数が必要になる場合があります。そんなときは、以下のように自分で追記しておくと良いでしょう。

階級値は、階級の真ん中の値でした。170.5cm以上180.0cm未満の階級であれば、階級値は177.5cmとなります。また、相対度数は、各階級の度数を度数の合計で割ったときの割合でした。170.5cm以上180.0cm未満の階級であれば、相対度数は $4 \div 20 = 0.2$ となります。

階級(cm) 度数(人) 階級値(cm) 相対度数
175.0以上~180.0未満 4 177.5 0.2
170.0以上~175.0未満 5 172.5 0.25
165.0以上~170.0未満 4 167.5 0.2
160.0以上~165.0未満 2 162.5 0.1
155.0以上~160.0未満 3 157.5 0.15
150.0以上~155.0未満 2 152.5 0.1
20 1

このように度数分布表を用いると、データを整理することができます。

ヒストグラムを用いてデータを視覚化しよう

より視覚的にしたい場合、度数分布表をもとに階級と度数の関係をグラフで表します。このグラフのことをヒストグラムと言います。ヒストグラムで視覚化することによって、データをより分析しやすくなります。

先程の身長の測定値についての度数分布表をヒストグラムで表すと、以下のようになります。

ヒストグラムの例

度数が大きくなればなるほど、長方形の高さが大きくなるので、どの階級の度数が大きいのか、あるいは小さいのかがひと目で分かります。

データを整理すると言えば、度数分布表を作ると捉えておこう。より視覚的にしたいならヒストグラム。

これまでに出てきた用語をまとめると、以下のようになります。

データの整理に関する用語

変量…ある集団を構成する人や物の特性を数量的に表す量
データ…調査や実験などで得られた変量の観測値や測定値の集まり

階級…各データの値の範囲を区切ったときの区間
階級の幅…区間の幅
階級値…階級の真ん中の値
度数…各階級に入ったデータの個数
度数分布表…各階級に度数を対応させた表
相対度数…各階級の度数の全体に対する割合

ヒストグラム…度数分布表をグラフにしたもの

次は度数分布表やヒストグラムを扱った問題を実際に解いてみましょう。