生物統計学
生物学の中でも、生態学において統計学がツールとして使用されることが多々あります。それは恐らく生物界にはサンプルがごった煮になってるので、自分達の出したデータは科学的なデータかどうか確認したいと生態学者が考えているからだと思います。しかし、分子生物学でも稀に統計学が使用されることがあるようです。自分も修士論文を書く際に統計学の検定を用いてデータが適切化どうか判定しました。その経験を話を少し書いていきます。
<目次>
A)分子生物学における統計学の種類
B)酵素活性のデータに関する統計処理
C)参考文献
「遺伝子Aと遺伝子Bには違いが有る!」ということを論文として提出したい研究者がいた場合、AとBには違いが有ると他の研究者に認めてもらう為には、データととって平均値を比較するだけでは証明したことにはなりません。その研究者が出した実験データが科学的に正しいデータかどうかをまず検定する必要があるわけです。データ自体がマトモであると承認された上で、AとBに違いがあるようならば、「遺伝子Aと遺伝子Bには違いが有る!」と証明できたといえるという論理のようです。つまり「データの信頼性を証明する」統計学と、「データ同士の違いを証明する」統計学の2種類があるということです。
またデータ検定の参考書籍を読んでいてはじめに躓いたのが書籍に記載されている色んな検定方法の内、どれを使用すればいいんだろう?という疑問でした。昔の書籍にはあまりそういったことが書かれていないため苦労しました。今の書籍ならばどういう場合にはどの検定法を使用すればいいか書かれて有るはずです。自分がまとめた検定法の種類は以下です。参考
(1)データの信頼性を証明する
●データの分散が等分散であることを証明する→ F検定 or バートレット検定
●データが正規分布することを証明する→ コルモゴロフ-スミノルフ検定 or シャビロ・ウィルク検定
(2)信頼できるデータ同士の違いを証明する → t検定 or ANOVA
(3) 信頼できないデータ同士の違いを証明する → Wilcoxon検定 or U検定
※注:自分は正規分布判定は行いませんでした。
分子生物学では主に、「F検定→t検定→証明終了」という論理が適用されているようです。なので他の検定方法には手を出さずその通りやってみました(安易ですが、キレイにデータが出ていたのでまぁ他の検定を行っても合格ラインに乗ると思います)。
計算に必要な値は「実験結果、系列AとBの各サンプルの値」「自由度=A、B各々のサンプル数」「危険率(通常5%で計算するらしい)」のようです。危険率と自由度から計算された基準F値なる値が各参考書の末尾に掲載されているはずです。それと、AとBの値から算出したF値を比較して大きいか小さいかで等分散を判定するという仕組みのようです。
<計算例1>
【表1】
【表1のFTEST】
→ 0.004
【危険率5%、自由度A=10、B=10の時の基準F値】
→ 2.98
【結果】
「F値(0.004)<基準F値(2.98)」より「等分散している(帰無仮説Hoが採択された)」
よって、t検定に進むことができる。
【補遺1:自由度】
自由度、という説明が書籍で詳しく言及されていない為に最初わかりませんでした。調べてみると単に「自由度=サンプル数」だということで理解できました。自由度が高くなると基準F値が低くなります。サンプル数が多くなるとデータの信頼性が高くなるため基準が低くなっていくのだと思います。
【補遺2:危険率】
初心者にとって一番意味不明なのが「危険率」だと思います(多分考えた人はちゃんと危険率も計算して設定するのだろうけど)。貴方がやっている実験系はどのくらい正確な基準でデータが出るの?というのが危険率だと思います。誤差の大きい値が出ない実験は危険率が低いという考え方のようです。しかし自分はまだ危険率設定の意味が理解できていません。デフォルトは5%(0.05)であるという文章が書籍に書いてあったし、どの書籍でも5%もしくは1%で例題が解かれているため自分も5%で合わせています。危険率というのは言い換えれば何回やったら等分散から外れた値が出るか、ということだと思いますが。要するに「危険率=5%」なら「20回に1回は出鱈目な値が出る条件」なワケで、実はかなり甘い設定のような気がします。1%でやればかなり信頼度高いんじゃないかと思います。
エクセルで
【補遺1:尾部】
1(片側)と2(両側)があります。
【補遺2:判定法】
石居進・生物統計学入門
丹後俊郎・統計学のセンス
<目次>
A)分子生物学における統計学の種類
B)酵素活性のデータに関する統計処理
C)参考文献
■A)分子生物学における統計学の種類
分子生物学においては、2種の系列を比較する事が多いです。例えば「血液型遺伝子Aを持つ人と血液型遺伝子Bを持つ人では寿命に違いがあるか」などです。また細胞レベルだけでなくタンパク質の機能データに関しても統計学が用いられることが多いようです。「遺伝子Aと遺伝子Bには違いが有る!」ということを論文として提出したい研究者がいた場合、AとBには違いが有ると他の研究者に認めてもらう為には、データととって平均値を比較するだけでは証明したことにはなりません。その研究者が出した実験データが科学的に正しいデータかどうかをまず検定する必要があるわけです。データ自体がマトモであると承認された上で、AとBに違いがあるようならば、「遺伝子Aと遺伝子Bには違いが有る!」と証明できたといえるという論理のようです。つまり「データの信頼性を証明する」統計学と、「データ同士の違いを証明する」統計学の2種類があるということです。
統計学の種類
(1)A、B各々に対してデータの信頼性を証明する
(2)AとBのデータ同士の違いを証明する
■B)酵素活性のデータに関する統計処理
自分が行ったのは、タンパク質に関するデータの処理でした。遺伝子を発現させて活性が上がるかどうか実験しました。それらのデータに対して行った検定「F検定」「t検定」について論述していきます。またデータ検定の参考書籍を読んでいてはじめに躓いたのが書籍に記載されている色んな検定方法の内、どれを使用すればいいんだろう?という疑問でした。昔の書籍にはあまりそういったことが書かれていないため苦労しました。今の書籍ならばどういう場合にはどの検定法を使用すればいいか書かれて有るはずです。自分がまとめた検定法の種類は以下です。参考
(1)データの信頼性を証明する
●データの分散が等分散であることを証明する→ F検定 or バートレット検定
●データが正規分布することを証明する→ コルモゴロフ-スミノルフ検定 or シャビロ・ウィルク検定
(2)信頼できるデータ同士の違いを証明する → t検定 or ANOVA
(3) 信頼できないデータ同士の違いを証明する → Wilcoxon検定 or U検定
※注:自分は正規分布判定は行いませんでした。
分子生物学では主に、「F検定→t検定→証明終了」という論理が適用されているようです。なので他の検定方法には手を出さずその通りやってみました(安易ですが、キレイにデータが出ていたのでまぁ他の検定を行っても合格ラインに乗ると思います)。
■F検定
F検定は「AやBのデータが等分散する≒データのばらつきに信頼感がある≒適切な実験系が組めている≒AやBのデータは比較するに十分である」ということを検定します。通常「帰無仮説Ho:AとBは等分散である」を証明しようとします。分散とかの計算は参考書籍のどれにでも書いてあるので、エクセルを使った計算を示します。(注:エクセルのF検定にはバグがあるという報告があるらしいので、自分でも計算した方がいいと思います)計算に必要な値は「実験結果、系列AとBの各サンプルの値」「自由度=A、B各々のサンプル数」「危険率(通常5%で計算するらしい)」のようです。危険率と自由度から計算された基準F値なる値が各参考書の末尾に掲載されているはずです。それと、AとBの値から算出したF値を比較して大きいか小さいかで等分散を判定するという仕組みのようです。
<計算例1>
- Microsoft Office Excel を開く
- 【表1】の用に縦にデータを入れる
- 画面左上の「fx」ボックスを選択して自動関数計算から「FTEST」選択
- 等分散を証明したい値2種類(A1〜A10、B1〜B10)をドラッグで選択する
- OKを押すと、自動でFTEST計算されてF値が出る。
- 自由度(サンプル数)から書籍に書いてある「自由度から算出された"基準F値"」を参照する
- 「F値<基準F値」ならば「等分散している(帰無仮説Hoが採択される)」
- 「F値>基準F値」ならば「等分散していない(帰無仮説Hoを棄却できる)」
【表1】
サンプル | 系列A | 系列B |
1 | 1.5 | 15.5 |
2 | 2.3 | 16.2 |
3 | 1.9 | 14.7 |
4 | 1.5 | 15.5 |
5 | 2.2 | 16.2 |
6 | 1.7 | 14.7 |
7 | 1.8 | 16.5 |
8 | 2.1 | 17.2 |
9 | 1.8 | 14.9 |
10 | 1.4 | 14.8 |
→ 0.004
【危険率5%、自由度A=10、B=10の時の基準F値】
→ 2.98
【結果】
「F値(0.004)<基準F値(2.98)」より「等分散している(帰無仮説Hoが採択された)」
よって、t検定に進むことができる。
【補遺1:自由度】
自由度、という説明が書籍で詳しく言及されていない為に最初わかりませんでした。調べてみると単に「自由度=サンプル数」だということで理解できました。自由度が高くなると基準F値が低くなります。サンプル数が多くなるとデータの信頼性が高くなるため基準が低くなっていくのだと思います。
【補遺2:危険率】
初心者にとって一番意味不明なのが「危険率」だと思います(多分考えた人はちゃんと危険率も計算して設定するのだろうけど)。貴方がやっている実験系はどのくらい正確な基準でデータが出るの?というのが危険率だと思います。誤差の大きい値が出ない実験は危険率が低いという考え方のようです。しかし自分はまだ危険率設定の意味が理解できていません。デフォルトは5%(0.05)であるという文章が書籍に書いてあったし、どの書籍でも5%もしくは1%で例題が解かれているため自分も5%で合わせています。危険率というのは言い換えれば何回やったら等分散から外れた値が出るか、ということだと思いますが。要するに「危険率=5%」なら「20回に1回は出鱈目な値が出る条件」なワケで、実はかなり甘い設定のような気がします。1%でやればかなり信頼度高いんじゃないかと思います。
■t検定
信頼できると判断された2データの間で検定を行い、「AとBには有意差がある」ということを証明する為の統計手法です。F検定で合格を貰った2系列に対して実行なされることが多いようです。このホームページが非常に優秀です。心理学系で統計学を使われている教授のHPのようです。流石プロ!参考にして下さい。エクセルで
【補遺1:尾部】
1(片側)と2(両側)があります。
【補遺2:判定法】
■C)参考文献
渡邊宗孝・ビギナーの為の統計学石居進・生物統計学入門
丹後俊郎・統計学のセンス
2008年02月12日(火) 23:31:42 Modified by psyberformula