医療統計

データの分析に必要な尺度水準について

データを分析したい、何らかの統計処理をしたい場合に、どの統計手法が妥当か?を考える必要があります。

このときに重要な考え方になるのが、尺度水準です。

分析したいデータが、統計学的に見てどのようなデータであるかを分類するためにこの分類を理解しておく必要があります。

なぜ尺度水準が必要なのか?

統計処理をするデータには検査の結果や身長・体重などの数値の他に、性別・血液型・出身地なども含まれています。

身長・体重などの数値は足し算や掛け算などの計算をすることができますが、性別・血液型などはこういった計算ができません。

身長や体重では、Aさん(145cm/40kg/女性)とBさん(165cm/60kg/男性)を比べたときに、

  • AさんはBさんより20cm身長が低い
  • AさんはBさんより20kg体重が軽い
  • AさんはBさんの体重の「2/3」である

などの比較をすることができます。

ですが、性別の場合はこういう比較をすることができません。

男性の場合を0、女性の場合を1としたとしても、その比較には意味がありません。

このように数値の比較に意味があるデータを取り扱う方法と、単に性質を表すために番号付けをしたデータを取り扱う方法とでは統計処理が変わってきます。

そのために、尺度水準という一定の法則でデータを分類して、適切な統計処理を選ぶ必要があります。

尺度水準には4つの分類がある

尺度水準の分類はそのデータの性質に応じて4つの分け方があります。

名義尺度 「男性」を0「女性」を1としたとき、「反応が陰性」を0「反応が陽性」を1としたときなどがこれに該当する。
土地の区画ごとに割り振られている郵便番号などもこれに該当する。
これらの数値は性質のみを表す。
順序尺度 「嫌い-どちらかと言えば嫌い-どちらかと言えば好き-好き」を「0-1-2-3」としたとき、「反応なし-やや反応あり-完全な反応あり」を「0-1-2」としたときなどがこれに該当する。
これらの数値には順番はあるが、数値の差や比には意味が無い。
間隔尺度 20℃と30℃には10℃の差があるが、30℃は20℃の1.5倍であるとは言えない。
1時と5時には4時間の差があるが、5時は1時の4倍であるとは言えない。
温度や時間のように、数値の間の間隔が決まっていて差を利用できるが、比を利用できないものが該当する。
これは基準点をどこにするか?によって比が変わってしまうため。
比率尺度 体重40kgと60kgでは差が20kgで、60kgは40kgの1.5倍と言う。
身長でも同様のことが言える。
このように、差も比も利用できるものが該当する。
これは基準点(0;ゼロ)がはじめから決まっていて、比が変動することがないという意味で間隔尺度と異なる。

ここまでは統計学の教科書に書いてある程度のことなのですが、やっぱり初学者には分かりにくい。

というか、「尺度水準」自体をどこでどう利用するか?みたいなことはわからないんです。

ある程度は解析の手法が限定されていくるとか、平均値が適さないとかいろいろ特徴はあります。

ですが、本来はこの考え方を完璧に身につけるのは、もっと先の話で、多変量解析とかモデル化して分析するとか、基礎統計の領域からもう一歩先に進んだときに必要になります。

で、個人的に尺度水準をどう捉えるか?をまとめてみました。

質的か量的かで大雑把に理解する

統計学的に細かいことを言えば、4つの尺度水準は重要ですが、2つに分けることを考えてみます。

結論から言うと

  • 質的データ(変数)= 名義尺度 + 順序尺度
  • 量的データ(変数)= 間隔尺度 + 比率尺度

というふうに分けます。

質的変数と量的変数の違いは計算することができるかどうか?だけので、一気にわかりやすくなります。

質的変数(質的データ)

名義尺度と順序尺度は数学的な計算ができません。

男性と女性の差と言われても数値化できないので、それらを一括りにして数字を割り当てます。

順序尺度も同じように、曖昧な性質とその序列を示すだけの数値を割り当てます。

こう考えると、この2つは数値的な意味を持っていない通し番号のようなもので、質的なデータ(変数)と捉えることができます。

量的変数(量的データ)

間隔尺度と比率尺度は数学的な計算ができます。

何度も登場していますが、10kmと20kmは差や比を計算して利用できます。

温度は摂氏(℃)ではなく絶対温度(K;ケルビン)に変換することによって、比率尺度に変えることができます。

時間も同様に、午前1時を午前0時からの経過時間と捉えれば、1時間とすることができるので、比率尺度に変えることができます。

簡単に言うと、間隔尺度のデータを取り扱うときに基準点を定めてしまうというやり方です。

こうすると、間隔尺度と比率尺度はどちらも量を表す量的データ(変数)と捉えることができます。

まとめ

  • 尺度水準には4つの分け方がある(名義・順序・間隔・比率)
  • どの尺度に属するかによって統計手法が異なる
  • 簡易的には質的データ・量的データを判別しておけば問題ない
  • 質的か量的かを判別するには「計算できるか?」を基準にする

普通の基礎統計の領域では、「量的変数(間隔尺度+比率尺度)」だけを取り扱っているので、まずはこの辺りの考え方をおさえておけば問題ありません。

いろいろなデータを見ていくうちに感覚的に理解できるようになります。

 

失敗したくないお酒選び。プチ贅沢なおすすめのウィスキー3選前のページ

記述統計とは?どんな目的でデータを整理するのか?次のページ

記事が気に入ったら
tipLog を "いいね!"
Facebookで更新情報をお届け。

tipLog

関連記事

  1. 医療統計

    代表値の意味と統計ソフト【R】で代表値を求める方法

    代表値の意味は、データの特徴を表す数値の中でデータの中心となる値のこと…

  2. 医療統計

    統計をゼロから勉強するときの指針みたいなもの

    医療に携わる職種として、論文とかメーカーの出すデータを読むために、統計…

  3. 医療統計

    度数分布表とヒストグラムってどう使うの?Rで実際にやってみた!

    度数分布表とヒストグラムはある集団のデータ(観測値)の特徴をひと目で理…

  4. 医療統計

    散布度の基本とRで散布度を計算する方法

    散布度をRで求める方法。散布度にはいろいろな基準があるが、Rはほとんど…

  5. 医療統計

    記述統計とは?どんな目的でデータを整理するのか?

    統計の基礎部分では、度数分布や平均値・分散・相関など、データそのものの…

  6. 医療統計

    表計算ソフトに置き換えてRのベクトルを理解する

    Rではベクトルという概念でデータを取り扱うのですが、はじめは理解が難し…

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

CAPTCHA


スポンサードリンク

スポンサードリンク

inkscapeを学ぶ

Inkscapeの入門書

カテゴリー

ピックアップ記事

  1. ブログやサイトの作り方

    月額100円から使える「ロリポップレンタルサーバー」
  2. グラフィックデザイン

    自作?外注?その前にコレ!ブログのロゴデザインをするなら「Logaster」を使…
  3. ブログの収益化

    報酬の受取に苦労してません?初心者でもAmazon・楽天のアフィリエイトで効率的…
  4. 特集

    inkscapeの使い方を集めたスキルアップのための日本語チュートリアル集
  5. 特集

    無料でクオリティが高く、検索機能が利用できる画像素材サイト3選
PAGE TOP