Inkscapeのマニュアル本、各種サイトで好評発売中! ▶公式サイトはこちらから

統計をゼロから勉強するときの指針みたいなもの

医療に携わる職種として、論文とかメーカーの出すデータを読むために、統計とか疫学の知識は必要だと思います。

論文にも信頼性のランクがありますし、メーカーの持ってくる資料はいいことばっかり書いてあるフシがあるので、そのあたりをどう解釈するのか?っていうところは結構重要だと思うんです。

調査分析手法は全く見ないで、「P値が有意だから・・・」みたいなことを考えても無駄ですよね?

で、そうなってくると、基本的な統計の考え方みたいなものが必要になるので、やっぱり統計の勉強は必要だなと思うわけです。

幸いなことに、自分の場合は、薬学部時代に「数学」のゼミに配属していて、統計ソフトと統計学についての研究をしていたので、他の人が臨床研究とかしている間に、統計をしっかり学ばせていただいたという経緯があります。

そのときの経験を元に、ここではゼロから統計を勉強したい人は何をすればいいのか?みたいなことを書いていこうと思います。

統計の計算を完璧にできる必要はない

自分が初めて統計に出会ったのは、大学の基礎科目の「統計学」でした。

初めは結構嫌でしたね。

数学系の科目って、基本的に公式を覚えて計算するっていうことの繰り返しなので、どうしたって数式を覚える必要が出てくるんです。

自分の場合は数式アレルギーってわけではないですけど、意味もわからず覚えるっていうのが嫌いでした。

そのときは嫌々覚えて、なんとか試験を通りました。

そのあとに数学のゼミに配属になったんですが、そこで統計ソフトの「R」というものに出会いました。

ここで統計学に対する考え方が変わりました。

統計を利用するときに使用されるのは「R」のような解析ソフトであって、手計算の能力は必要ないのです。

もちろん数式を覚える必要がないというわけではなく、数式の意味を理解できる程度には覚えることも必要です。

でも、計算をすることが目的ではないんです。

まず、このことだけは頭に入れておくと勉強するというハードルは一気に下がるのかな?という気がします。

手を動かすことからはじめる

はじめから「基礎統計」みたいなタイトルの教科書を開くとやっぱり挫折します。

理論先行で、実際にどう使うのか?どう使えるのか?みたいな部分がわからないので、興味が持てなくなります。

そこで、実際の統計ソフトの使い方とか解析結果の読み方とか、方法論を学ぶところから始めてしまうという暴挙に出てみましょう。

モチベーション維持的な意味でかなり有効です。

統計ソフトはトレンド的に「R」がいいと思います。

統計分野はもちろんですが、経済学・心理学・生物学・化学・物理学などかなり幅広い分野でスタンダートになりつつあるので、「R」を勉強しておけば間違いないと思います。

実際、世界的に開発が進んでいて、利用者も多いのでヘルプになるブログとかサイトが多いことも手助けになります。

たまに「Excel」で統計の勉強をする本とかを見かけるのですが、「Excel」で勉強するのはやめておきましょう。

単に表計算するためのソフトなので、統計の専用ソフトに比べるとかなり見劣りしますし、機能的に勉強には不向きです。

あと、これ↓が重要です。

普通の統計ソフトは10万円くらいの金額で販売されているのですが、「R」はGNUライセンスで完全フリーで使えます。

無料でほぼすべての統計解析ができるソフトを利用できるので、学習環境としても最適なのです。

ちなみに、「R」を使ってゼロから統計を勉強するならこの本は評判が良いです。

初版の当時は「R」のバージョンが2.6なのですが、現在は3.3ですので、そろそろ改定が必要かと思いますが、学習を進めていくこと自体にはまったく支障はありません。

というのも「R」の基本操作は当時からまったく変わっていないので、この本の内容が古すぎるということがないからです。

統計の基礎と「R」をまんべんなく学習できるので、この1冊だけでも初心者からは抜け出せるはずです。

理論はその都度勉強する

ソフトを使いながらある程度の統計の基礎を身につけて行くと、途中で疑問が浮かぶようになってきます。

「この統計手法は何を根拠に、どこまでのことを証明できるのか?」みたいなことを考えなければならないこともあります。

そうなってくると理論を理解するための本が必要になってきます。

私は薬学出身なので、この本がおすすめです。

完全に統計の基礎部分の内容なので、定理や公式の解説などが網羅されています。

途中途中に薬学部での研究内容に結びつきやすいように、医療系のデータを使った例題が豊富にあるのも良いところです。

また最後の7章には、発展的な内容として、回帰分析・分散分析・多重比較の項があります。

薬学系とか医療系の統計に限らず、統計を使うための理論が書かれています。

この辺りまでくれば、あとは専門分野の学習に入っていけると思います。

統計の専門書は結構たくさんありますし、最近では「R」を使った専門書も豊富になっています。

心理統計・社会統計・医療統計などAmazonで検索すれば沢山出てきます。

Amazonで検索「R 医療統計」

専門分野のひとに聞いてみるというのも有りです。

近くに聞ける人がいないときはブログなどを参考にしてみましょう。

たくさんの情報が眠っています。

ちなみに絶版になってしまったようですが、「R」の医療統計の参考書として私はこれを使っていました。

第2版が出るようなので、こちらが新しいものですね。

現在は中古のみの取扱で、価格が高騰していますが良書です。

もともと英語圏で「R」で統計を学ぶときに一番に上がるほど本で、「Introductory Statistics with R」の日本語版です。

医療・生物分野のサンプルデータを使いながらRの基本的な使い方を学習できるので、なぜ絶版になってしまったのかが不思議なくらいです。

一段階理論のレベルを上げる

更に詳しい統計の教科書となると、これは定評があります。

一通り基礎がわかるようになったら、次に勉強するのが多変量解析の基本理論になってきます。

構成がとても良くて、統計の基本を3章辺りまでで網羅してから、それぞれの理論について「基本→パラメトリック→ノンパラメトリック」という感じに解説しています。

ざっくり言うと、パラメトリックは身長・体重のような数値を扱う方法で、ノンパラメトリックはアンケートなどの定性データを扱う方法です。

この辺りを完璧に理解する必要はあまり無いような気もしますが、一度触れておくと、専門分野の理解に繋がることは間違いないです。

あとがき

なんとなく道筋は見えましたか?
まとめると、こうなります。

  1. 理屈ありきで、統計手法の使い方を覚える
  2. 計算は勉強しなくてよし(ソフトにお任せ)
  3. 統計手法から言えることをきちんと理解する
  4. 理論を深める

この流れでやっていけば必要なことはだいたい学んでいけるのではないかと思います。

現に私はこの方法でいろんな統計手法を理解できるようになりましたので。

初学者の方に参考になれば幸いです。

12 COMMENTS

eclipse

返事が贈れてすいません。

多分、大丈夫だと思います。テキストを注文したりして、本の内容も見てからと思ったので、返事が贈れてしまいました。

講師の豊田氏の本「初めての統計データ分析」をさらにわかりやすくした内容の感じです。
RとStanを使いますが、インストール関係はちょっと不親切かな、ただ、両者のインストールは結構Webで情報が出ているので問題ないよ思います。実際 RStan というRのパッケージから操作します。
操作の方は、それほど詳しく説明していませんが、実演は前回の放送で少しやっていました。基本的にサンプルデータとRのスクリプトがあって、それをダウンロードして実行できるので、あとはそのスクリプトの内容を解読すれば、実際の使い方はわかるという感じです。

そのスクリプトやデータのファイルは、豊田氏の研究室のホームページにおいてあって
http://www.waseda.jp/sem-toyoda-lab/
にあります。  5月4 5日  これまで放送した分(1から4回)の再放送がありますので、最初から見られます。テキストがあったほうが演習問題とかあるので、効果的かもしれません。

返信する
とある薬剤師

>テキストを注文したりして、本の内容も見てからと思ったので、返事が贈れてしまいました。

お気遣いありがとうございます。非常に助かります。
再放送があるのですね。スケジュール的に視聴できるかなんとも言えないのですが、再度勉強してみようと思います。教えていただきありがとうございます。

ここで話すのは少し気がひけるのですが、別件で1年がかりの長期のプロジェクトをすすめることになりました。
あまり更新できなくなってしまいそうです。(そもそもそんなに更新してないのですが・・・)
落ち着きましたら更新できるようになると思いますので、その時はまたよろしくお願いいたします。

eclipse

ポストp値時代の幕開け、脱有意検定 ということが、アメリカ統計学会で言われてるようです。

それを反映して、今回の放送大学の 「心理統計法」は豊田秀樹さんにかわって、有意検定やp値を使わない統計学入門になっています。

内容として、数学は高校数学の 数学Iまで、ベクトル演算、行列、微分・積分は使わない。統計の予備知識なしでもOKという前提ですが。

上記のポストp値時代の統計学として、これまで心理統計を使ってきた研究者や心理統計を大学で教えている先生たちも対象になっています。つまりベイズ統計を使った心理統計入門ということで、放送大学で一気にそういう変化が来るとは驚きでした。

おそらく、医療統計にも同じことは言えるのだろうと思います。p値を使わないで、ベイズ統計、実際にはMCMC法を使う、じっさいシラバスにも、RとStan(これはMCMCを実現するソフトでハミルトニアン・モンテカルロ法でアンプリングします)を使うことが触れられています。

返信する
とある薬剤師

モンテカルロ法については知人が医療統計で利用しているところを見たことが有りますね。
最近はそちらが主流になりつつあるということですね。
改めて、勉強したいところですが、ちょっと時間がかかってしまいそうです。

放送大学の方は高校数学でも理解できるとのことですが、栄養士さんたちにも進められるレベルなのでしょうか?
実際に受講したいとも思うのですが、初学者でもついていけるレベルでしたでしょうか?
教えていただければ幸いです。

eclipse

      栄養士さんと統計学 4

あとは、線形代数ですね。ベクトルは、複数の量を一度に扱うためにペアにしたものだという説明と線形は比例のことだということ、あとは、基底の取り換えは、座標変換でまあ、栄養士さんは女性が多いから、一番美しく見える、角度で見るためにいろいろ工夫してるんだって、言いましょうか(^^;

固有値や固有ベクトル、正規直交基底や射影作用素あたは因子分析や主成分分析を説明する際に必要なんだけど、いまのところ、うまい説明が見つかっていません。どうしようかなぁ。

以上、なんか、思いを巡らして書いてたら、長くなってしまいましたので、分けてアップしました(^^;

薬学関係では、多変量解析は、どれくらい使われるのでしょうか?   実は以前、知り合いの栄養士のお手伝いした時、心身相関に栄養学を絡める話だったんですが、結局線形では歯が立たなくて、その際、非線形を扱えるものって、必要だなっておもって、ベイズ統計とカーネル法とか少しづつ手を出しています。

返信する
eclipse

    栄養士さんと統計学 3

測度論をやるには、σー加法族とか言わないといけないので、集合論は必須になります。ただ写像は線形写像もやはり理解してもらわないといけないから、やはり必須になると思います。多変数の関数というのはおそらく、扱ったことがないと思うので、写像として多変数の関数を教えるためにも必要ですね。そうしないと統計ソフトが何をしているかがわからないと思います。

測度論は、確率空間が複数回の試行の際、1回の試行の確率空間の直積空間が複数試行の確率空間になること、その際、積測度(product measure)がその測度になることを理解してもらうことが目的です。その際、無限回の試行の確率空間やその測度の構成も完全には理解できなくても、述べておく必要があって、これは大数の法則や中心極限定理の内容をきちんと述べる際に必要になります。まあ、理解は出来なくとも、こういうものだという感覚が重要で、それが母集団や標本空間への理解になると思います。

返信する
eclipse

だから多変量の知識が本来は医師たちの統計より、さらに必要な内容のものが多いですね。

だから、しっかり、P値の意味、多変量の扱い方を知ってもらわないといけないのですが、数学がなぇ。ただ、数学アレルギーなのか数式アレルギーなのか、私は後者だと思ってるので、なるべくそれまでのトラウマを刺激しないような教え方をしたらうまく行くのでは? ってまあ、淡い期待をしてますが。。。

ということで、方針としては。

一応、今、言ってるのは、微積分は、やらなくていい。これは微分は、最大値求めるために微分係数が0しか使わないので、このために勉強するのは無駄が多い。接線であるとか、線形写像での近似をみてるとか、意味がわかれば問題ないと思ってます。

積分も記号の意味は連続和であるということと、体積をあらわすということがわかれば、とりあえずいいのかなぁってお思ってます。その代わりに測度論をやったほうがいい。厳密にやる必要はありませんが、確率変数を理解するために、確率変数が確率空間から実数への可測関数であることを理解してもらい、確率密度分布とか理解してもらうのが、帰無仮説とか理解してもらうには欠かせないですねぇ。

返信する
eclipse

   栄養士さんと統計学 1

栄養士さんが必要な統計はエビデンスってうるさくなってきてますが、私が思うに、何かの方法が効果があったか? っていうのは必ずしも、薬の効果とか、治療の効果ほど間違うと死活問題というのは、ないとは言えませんが、あまり多くなく、どちらかというと、心理学の統計学のような要素を多々含んでいて、いろんな因子が絡んでて、必ずしもT検定や分散分析だけでかたがつかず、多変量解析をいろいろ使わないといけないケースが多い気がします。パス解析(共分散構造解析)とかクラスター解析、因子分析、主成分分析、重回帰が本来は必要ですが、多分、使いこなせていないと思います。

やたらP値信仰があって、たとえばいろんな項目を全部T検定やってP値のオンパレードって平気でやったりして、個々は高い確率で成り立つとしても同時に成り立つ確率はそれらの事象が仮に独立ならば、ほとんど成り立たない確率ってことになるんですが。。。(^^;

返信する
eclipse

補足

最後の話は、実際には、帰無仮説ですから棄却できないとなるんですが、検出力が高ければ、対立仮説が正しくなるので同時にはなりたたないってことになるわけですよね。でも実際はどうなるんだろう? 検出力ってどう定義するんだろう? なんか背理法的な話だから、ややこしい! ともかく棄却はできないことは確かです。

とある薬剤師

非常に難しい環境で統計を利用しなければならないということが伝わってきました。
私自身は統計のスペシャリストではなく、あくまで薬剤師の傍らで利用する立場からしかお話できないのですが、ご参考までに。

私が統計を使うときには必ず過去の論文から、理論やデータ収集・解析の手法を引用したりしていました。
過去の論文に誤りがあるとなると問題が大きいのですが、幾つかの論文を元にデータ収集の計画を立て、専門家の理解と齟齬がないような論法を模索することからはじめました。
まずは過去の調査結果や海外のデータ・論文を読めるようにするのも一つかと思います。

>薬学関係では、多変量解析は、どれくらい使われるのでしょうか?

このあたりはeclipseさんが予想されいてるとおり、薬の効果であればT検定だったり、Wilcoxon順位和検定だったりが主になってくることが多いと感じます。
実際に製薬関係の資料ではこういった情報が多いので、これは間違いないかと思います。
ですが、最近ではエビデンスが重視されるようになり、直接患者に関わる立場になると複数の臨床試験のメタ解析の結果を読み解く力のほうが必要になるかと思います。
このあたりは実際に統計をしっかり勉強していなくても、ある程度論文の情報を読めればOKなので、変な話知らなくてもわかるという感じですね。
あとは何を言いたいのか?というレベルでデータの取扱が変わってくるので、実際のところはなんでも使うというのが実情だと思います。
もちろん多変量解析や非線形モデルも使っている人は使っています。
私の場合はそういった研究よりも研究結果を取り使う側にいるので、詳しくはわからないですね。
すみません。

eclipse

読ませていただいました。

Rによる医療統計学 原書2版  でてtるんですねー  知らなかった。 初版は持ってます。

栄養士さんに教えるときに困るのは、微積しらない、線形代数やってない。シグマ記号ダメ 数学アレルギーって状況で統計使わないといけないという状況で、付き合いは長いので、集合とか写像とかは、絵で書いて説明して、基礎から書いて教えたことありますが、多分感覚的に理解してるんだと思います。数式やベクトルとかは3歩ぐらい下がってから、決心してから、立ち向かうって感じですね。
帰無仮説とかは、どうにかわかってもらえましたが、文章で書こうとすると、どうしても確率変数の話をしないといけないし。。。

とにかく、集合とか 写像とかは、概念はきちんと理解してもらって、あとは、最小限の数式って感じで、でも砕きすぎるとかえてって、わかりにくくなるから、結構、硬い内容で、それを感覚的に、理解してもらってます。

返信する
とある薬剤師

お返事が遅くなり申し訳ありません。諸事情によりネットに接続できておりませんでした。

栄養士さんとなると、基本的に数学自体に縁のない方が多いというイメージです。
そういった方に教えるのはかなりハードルが高いように思います。

どこまで知っていてほしいか?がわからないのですが、とりあえず統計ソフトの使い方を覚えてもらうというのも有りなのかな、と思ってしまいます。
実務から教えて、理論に戻るような教え方というのでしょうか。
教える経験はあまりしてこなかったので、このくらいのことしか言えないのですが、ご参考までにこのブログを活用していただければと思います。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA