度数分布表とヒストグラムってどう使うの？Rで実際にやってみた！

度数分布表とヒストグラムはある集団のデータ（観測値）の特徴をひと目で理解するために作ります。

生のデータは数値の羅列になっていて、ぱっと見ただけでは特徴をつかむことは難しいです。

度数分布表とヒストグラムを作ると、

どんなデータ（観測値）が多いのか？
正規分布を前提にデータを扱えるか？
平均値がいいのか？最頻値がいいのか？

などの基本的なことを把握することができます。

つまり、生データを眺めるだけではわからなかったデータの特徴をサクッと知ることができます。

この記事で学べること

今回は生データから、Rを使って度数分布表とヒストグラムを実際に作ってみます。

生データはRのデータセットから引用させていただきますので、その辺りの操作も少し触れます。

最後に、度数分布表とヒストグラムからどのくらいの情報が読み取れるか？を検証してみます。

では、順に進めていきます。

生データをどこから持ってくる？

生データが無いとどうにもならないので、まずはデータを取り込みます。

Rにはデータセットという、無償提供の観測データが収録されています。

この観測データの中から有名な「iris」というあやめの種類と大きさに関するデータを利用します。

利用するにはRのコンソールで次のように入力します。

library(datasets)

これだけでデータを利用する準備が整います。

この状態で次のようにすると、「iris」のすべてのデータを見ることができます。

iris

このデータはあやめのがく片（sepal）と花びら（petal）の長さ（length）と幅（width）を、あやめの種類ごとに調査したデータです。

ここでは、どんなデータか？ということはあまり考えずに、このデータの中から花びらの長さ（Petal.Length）だけを取り出します。

data <- iris$Petal.Length
data

表示されるのは生データの数字の羅列です。

この情報だけでデータの特徴はわからないので、度数分布表とヒストグラムを作って見ていきます。

Rではヒストグラムと同時に度数分布表のデータを取得できる

早速、度数分布表を作ってヒストグラムを描いてみますが・・・

Rではヒストグラムを出力する関数（hist）を使うと、度数分布表を作らずにヒストグラムを描くことができます。

hist(data)

ここまではRの基本で教科書レベルですが、実はhist関数にはヒストグラムの元になった、度数分布表のデータが収納されています。

このデータを取り出して、度数分布表も作ってみます。

data.hist <- hist(data)
data.hist

hist関数が持っているデータを新たに「data.hist」に保存することで、その中身を見ることができます。

このデータにはヒストグラムの元になっている度数分布に関するデータが入っているので、そのまま転用すれば度数分布表を簡単に作ることができます。

data.freqtable <- data.frame(data.hist$mids, data.hist$counts)
data.freqtable

ここまでできれば後は相対度数・累積相対度数を計算するだけです。

相対度数はデータの数で度数を割る、累積相対度数は単に累積値を求めればいいので、データフレームにその列を組み込みます。

relaFreq <- data.hist$counts / length(data) * 100    # 相対度数
cumsumRelaFreq <- cumsum(relaFreq)    # 累積相対度数
data.freqtable <- data.frame(data.freqtable, relaFreq, cumsumRelaFreq)    # 度数分布表につなげる
data.freqtable    # 表示