資料の整理と度数分布表
統計資料の整理
記述統計学では、統計資料(データ)をまとめて整理して、
直感的に理解できるように視覚化したり、
特徴を代表的な数値にまとめて、資料の全体像が理解できるようにします。
ここでは、基本的な資料の整理方法である、
度数分布表とヒストグラムについて説明します。
度数分布表とは
度数分布表(frequency table)とは、
データを大きさの順に並び変えいくつか区分にまとめた表で、
データ全体の分布(distribution)を把握するために用います。
度数分布表の作成手順
- 階級数または階級幅を決める
- 階級値および有効桁数を考え、階級の境界(どこで区切るか)を決める
- 各階級の度数を数える
- 階級と度数を元に、度数分布表を作成し、必要に応じて分布の形を見たりする
用語
- 階級 (class)
- データを区切るときの区間
- 各階級でとりうる最大の値を上限、最小の値を下限という
- 階級数
- いくつの区間に区切るかの区間の数
- 一般には10前後が目安(多すぎても少なすぎてもいけない)
- どのように区切るかは、キリのいい値や経験などを元にする場合があるが、客観的な区切り方を検討する場合はスタージスの方法(後述)などを用いる
- 階級幅 (class interval)
- 階級値 (class mark)
- 各階級の中央の値
階級値={(階級の上限)+(階級の下限)}/2
- 度数 (frequency)
- 累積度数 (cumulative frequency)
- 階級値の小さい(または大きい)ほうから、ある階級までの度数を合計した値
- 最後の階級での累積度数は度数の合計になる
- 相対度数 (relative frequency)
- 累積相対度数 (relative cumulative frequency)
階級数の算出
階級数を算出するときに、
経験やキリのいい数字ではなく、
何らかの客観的な理由が必要となる場合に、使用される方法がいくつかある。
- スタージス (Starges) の方法
- データの数が n 個のとき、常用対数 を用いて算出
- シャリエ (Charier) の方法:標準偏差の1/3
- フィッシャー (Fisher) の方法:標準偏差の1/4
Excelで度数分布表を作成
表計算ソフトの「Microsoft Excel」を使って、
度数分布表を作成する場合、
関数を使わなくても、四則演算(+−*/)だけでも作成できます。
しかし、データ数が多い場合に度数を求めたり、
度数などの合計を求めるときには、
関数を使えばデータを処理しやすくなります。
度数分布表の作成で使用する関数
- 合計は、SUM関数を利用します。
- SUM(合計を計算する)
- 書式 : SUM(数値1, 数値2, ...)
- 引数 : 数値1, 数値2, ... :平均を計算するセルの範囲
- 例:B1〜B10セルまでのセルの数値の平均値を計算する
=SUM(B1:B10)
- 「値が60以上のセル」のように、特定の条件を満たすセルの個数を数えるには、COUNTIF関数を使います。
- COUNTIF(指定された範囲のセルのうち、検索条件に一致するセルの個数を返す)
- 書式 : COUNTIF(範囲, 検索条件)
- 引数 : 範囲 : 個数を求めるセルの範囲
- 引数 : 検索条件 : 個数を求めるセルの検索条件
- 例:W1〜W10セルまでで値が「80以上」のセルの個数を数える
=COUNTIF(W1:W10,">=80")
COUNTIF関数を利用して数式をつくるとと、
「40以上60未満の値があるセルの数」を求めることができます。
ただし、COUNTIF 関数には条件は1つしか設定できないため、
ひとつの数式でCOUNTIF 関数を2つ使います。
たとえば、C1〜C7セルに上の図のように点数の値が入力されているとします。
そのときに、「40以上60未満の値があるセルの数」を求める場合は、
次のような数式になります
=COUNTIF(C1:C7,">=40")-COUNTIF(C1:C7,">=60")
つまり、「40以上の値があるセルの数」と「60以上の値があるセルの数」の差を求めればよいわけです。