統計の基礎部分では、度数分布や平均値・分散・相関など、データそのものの特徴を調査する記述統計について触れられています。
この記述統計はその後の推定や検定をするための下準備と思われがちですが、実際はもう一つ重要な意味が隠されています。
今日はその辺りついて少しお話をしようかと思います。
記述統計からわかること
そもそも記述統計は、実験や調査から得られた観測値(データ)について、そのデータの特徴を知るための体系的な手法のことを言います。
その中に平均値や中央値などの代表値が含まれていたり、分散や四分位数などの散布度が含まれています。
また、ヒストグラムや散布図などを描くことで、データを視覚的に捉えることもできます。
これらの手法によって
「(調査などから)得られたデータによると、もしかしたら○○ということが言えるかもしれない」
という可能性の話ができるようになります。
この可能性についての検証をするのが、t検定やウィルコクソンの符号順位検定などの「仮説検定」という分野になります。
これが一般的な教科書の流れになっているので、記述統計は「仮説検定を理解するために必要な基礎知識」みたいな存在になっています。
仮説検定には前提条件がある
例えば、あるデータ(標本)に対してt検定をするときに、必要な前提として「そのデータ(標本)の母集団が正規分布従う」ことが必要です。
この条件にマッチしていない場合はそもそもt検定をする意味がなくなってしまうので、データ自体がどのような確率分布に従うか?ということが重要なのです。
普通は、過去に行われたデータの解析などから、データの確率分布が明確になっていたり、数学的にすでに証明されていたりします。
こういう場合はまったく問題なく、過去の文献を参考資料として記載しておけば論文としても信頼性が担保できます。
では、過去に一度も、こういった検証がされていないデータを扱う場合はどうでしょうか?
この場合は、とっても面倒に感じますが、自分自身でデータについての解析を何度も繰り返す必要があります。
大学のゼミなどでは基礎研究が何年にも積み上げられていて、その論文がいくつも溜まっているので、こういったデータ解析を何度もする必要はありません。
ですが、過去の事例がない場合は基礎研究を自分自身で行う必要があります。
このときに使用されるのが記述統計です。
基礎研究はとっても大事で、そこに記述統計が絡んでいるので、どれも疎かにはできないのです。
おわりに
記述統計から推察できること、断言できることには限りがあります。
論文でもダブルブラインド(二重盲検)でなければ意味が無いとか、メタアナリシスでなければとか、信頼性のある解析を求めることが多いのも事実です。
それでも記述統計のようなデータそのものがどのようなものであるか?を調べる必要は絶対にあります。
それと同時に、統計を学ぶ上でも重要な考え方になるので、飛ばさずに勉強しておいた方が自分のためになりますね。