Inkscapeのマニュアル本、各種サイトで好評発売中! ▶公式サイトはこちらから

データの分析に必要な尺度水準について

データを分析したい、何らかの統計処理をしたい場合に、どの統計手法が妥当か?を考える必要があります。

このときに重要な考え方になるのが、尺度水準です。

分析したいデータが、統計学的に見てどのようなデータであるかを分類するためにこの分類を理解しておく必要があります。

なぜ尺度水準が必要なのか?

統計処理をするデータには検査の結果や身長・体重などの数値の他に、性別・血液型・出身地なども含まれています。

身長・体重などの数値は足し算や掛け算などの計算をすることができますが、性別・血液型などはこういった計算ができません。

身長や体重では、Aさん(145cm/40kg/女性)とBさん(165cm/60kg/男性)を比べたときに、

  • AさんはBさんより20cm身長が低い
  • AさんはBさんより20kg体重が軽い
  • AさんはBさんの体重の「2/3」である

などの比較をすることができます。

ですが、性別の場合はこういう比較をすることができません。

男性の場合を0、女性の場合を1としたとしても、その比較には意味がありません。

このように数値の比較に意味があるデータを取り扱う方法と、単に性質を表すために番号付けをしたデータを取り扱う方法とでは統計処理が変わってきます。

そのために、尺度水準という一定の法則でデータを分類して、適切な統計処理を選ぶ必要があります。

尺度水準には4つの分類がある

尺度水準の分類はそのデータの性質に応じて4つの分け方があります。

名義尺度「男性」を0「女性」を1としたとき、「反応が陰性」を0「反応が陽性」を1としたときなどがこれに該当する。
土地の区画ごとに割り振られている郵便番号などもこれに該当する。
これらの数値は性質のみを表す。
順序尺度「嫌い-どちらかと言えば嫌い-どちらかと言えば好き-好き」を「0-1-2-3」としたとき、「反応なし-やや反応あり-完全な反応あり」を「0-1-2」としたときなどがこれに該当する。
これらの数値には順番はあるが、数値の差や比には意味が無い。
間隔尺度20℃と30℃には10℃の差があるが、30℃は20℃の1.5倍であるとは言えない。
1時と5時には4時間の差があるが、5時は1時の4倍であるとは言えない。
温度や時間のように、数値の間の間隔が決まっていて差を利用できるが、比を利用できないものが該当する。
これは基準点をどこにするか?によって比が変わってしまうため。
比率尺度体重40kgと60kgでは差が20kgで、60kgは40kgの1.5倍と言う。
身長でも同様のことが言える。
このように、差も比も利用できるものが該当する。
これは基準点(0;ゼロ)がはじめから決まっていて、比が変動することがないという意味で間隔尺度と異なる。

ここまでは統計学の教科書に書いてある程度のことなのですが、やっぱり初学者には分かりにくい。

というか、「尺度水準」自体をどこでどう利用するか?みたいなことはわからないんです。

ある程度は解析の手法が限定されていくるとか、平均値が適さないとかいろいろ特徴はあります。

ですが、本来はこの考え方を完璧に身につけるのは、もっと先の話で、多変量解析とかモデル化して分析するとか、基礎統計の領域からもう一歩先に進んだときに必要になります。

で、個人的に尺度水準をどう捉えるか?をまとめてみました。

質的か量的かで大雑把に理解する

統計学的に細かいことを言えば、4つの尺度水準は重要ですが、2つに分けることを考えてみます。

結論から言うと

  • 質的データ(変数)= 名義尺度 + 順序尺度
  • 量的データ(変数)= 間隔尺度 + 比率尺度

というふうに分けます。

質的変数と量的変数の違いは計算することができるかどうか?だけので、一気にわかりやすくなります。

質的変数(質的データ)

名義尺度と順序尺度は数学的な計算ができません。

男性と女性の差と言われても数値化できないので、それらを一括りにして数字を割り当てます。

順序尺度も同じように、曖昧な性質とその序列を示すだけの数値を割り当てます。

こう考えると、この2つは数値的な意味を持っていない通し番号のようなもので、質的なデータ(変数)と捉えることができます。

量的変数(量的データ)

間隔尺度と比率尺度は数学的な計算ができます。

何度も登場していますが、10kmと20kmは差や比を計算して利用できます。

温度は摂氏(℃)ではなく絶対温度(K;ケルビン)に変換することによって、比率尺度に変えることができます。

時間も同様に、午前1時を午前0時からの経過時間と捉えれば、1時間とすることができるので、比率尺度に変えることができます。

簡単に言うと、間隔尺度のデータを取り扱うときに基準点を定めてしまうというやり方です。

こうすると、間隔尺度と比率尺度はどちらも量を表す量的データ(変数)と捉えることができます。

まとめ

  • 尺度水準には4つの分け方がある(名義・順序・間隔・比率)
  • どの尺度に属するかによって統計手法が異なる
  • 簡易的には質的データ・量的データを判別しておけば問題ない
  • 質的か量的かを判別するには「計算できるか?」を基準にする

普通の基礎統計の領域では、「量的変数(間隔尺度+比率尺度)」だけを取り扱っているので、まずはこの辺りの考え方をおさえておけば問題ありません。

いろいろなデータを見ていくうちに感覚的に理解できるようになります。

 

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA