生物統計学

　生物学の中でも、生態学において統計学がツールとして使用されることが多々あります。それは恐らく生物界にはサンプルがごった煮になってるので、自分達の出したデータは科学的なデータかどうか確認したいと生態学者が考えているからだと思います。しかし、分子生物学でも稀に統計学が使用されることがあるようです。自分も修士論文を書く際に統計学の検定を用いてデータが適切化どうか判定しました。その経験を話を少し書いていきます。

＜目次＞
A)分子生物学における統計学の種類
B)酵素活性のデータに関する統計処理
C)参考文献

■A)分子生物学における統計学の種類

　分子生物学においては、２種の系列を比較する事が多いです。例えば「血液型遺伝子Ａを持つ人と血液型遺伝子Ｂを持つ人では寿命に違いがあるか」などです。また細胞レベルだけでなくタンパク質の機能データに関しても統計学が用いられることが多いようです。
　「遺伝子Ａと遺伝子Ｂには違いが有る！」ということを論文として提出したい研究者がいた場合、ＡとＢには違いが有ると他の研究者に認めてもらう為には、データととって平均値を比較するだけでは証明したことにはなりません。その研究者が出した実験データが科学的に正しいデータかどうかをまず検定する必要があるわけです。データ自体がマトモであると承認された上で、ＡとＢに違いがあるようならば、「遺伝子Ａと遺伝子Ｂには違いが有る！」と証明できたといえるという論理のようです。つまり「データの信頼性を証明する」統計学と、「データ同士の違いを証明する」統計学の２種類があるということです。

統計学の種類
（1）Ａ、Ｂ各々に対してデータの信頼性を証明する
（2）ＡとＢのデータ同士の違いを証明する

■B)酵素活性のデータに関する統計処理

　自分が行ったのは、タンパク質に関するデータの処理でした。遺伝子を発現させて活性が上がるかどうか実験しました。それらのデータに対して行った検定「Ｆ検定」「ｔ検定」について論述していきます。
　またデータ検定の参考書籍を読んでいてはじめに躓いたのが書籍に記載されている色んな検定方法の内、どれを使用すればいいんだろう？という疑問でした。昔の書籍にはあまりそういったことが書かれていないため苦労しました。今の書籍ならばどういう場合にはどの検定法を使用すればいいか書かれて有るはずです。自分がまとめた検定法の種類は以下です。参考

(1)データの信頼性を証明する　
●データの分散が等分散であることを証明する→　Ｆ検定 or バートレット検定
●データが正規分布することを証明する→　ｺﾙﾓｺﾞﾛﾌ-ｽﾐﾉﾙﾌ検定 or ｼｬﾋﾞﾛ・ｳｨﾙｸ検定
(2）信頼できるデータ同士の違いを証明する　→　ｔ検定 or ＡＮＯＶＡ
(3) 信頼できないデータ同士の違いを証明する　→　Wilcoxon検定　or　Ｕ検定
※注：自分は正規分布判定は行いませんでした。

　分子生物学では主に、「Ｆ検定→ｔ検定→証明終了」という論理が適用されているようです。なので他の検定方法には手を出さずその通りやってみました（安易ですが、キレイにデータが出ていたのでまぁ他の検定を行っても合格ラインに乗ると思います）。

■Ｆ検定

　Ｆ検定は「ＡやＢのデータが等分散する≒データのばらつきに信頼感がある≒適切な実験系が組めている≒ＡやＢのデータは比較するに十分である」ということを検定します。通常「帰無仮説Ho：ＡとＢは等分散である」を証明しようとします。分散とかの計算は参考書籍のどれにでも書いてあるので、エクセルを使った計算を示します。（注：エクセルのＦ検定にはバグがあるという報告があるらしいので、自分でも計算した方がいいと思います）
　計算に必要な値は「実験結果、系列ＡとＢの各サンプルの値」「自由度＝Ａ、Ｂ各々のサンプル数」「危険率（通常5%で計算するらしい）」のようです。危険率と自由度から計算された基準Ｆ値なる値が各参考書の末尾に掲載されているはずです。それと、ＡとＢの値から算出したＦ値を比較して大きいか小さいかで等分散を判定するという仕組みのようです。

＜計算例１＞

Microsoft Office Excel を開く
【表１】の用に縦にデータを入れる
画面左上の「fx」ボックスを選択して自動関数計算から「FTEST」選択
等分散を証明したい値２種類（Ａ１～Ａ１０、Ｂ１～Ｂ１０）をドラッグで選択する
ＯＫを押すと、自動でFTEST計算されてＦ値が出る。
自由度（サンプル数）から書籍に書いてある「自由度から算出された"基準Ｆ値"」を参照する
「Ｆ値＜基準Ｆ値」ならば「等分散している（帰無仮説Hoが採択される）」
「Ｆ値＞基準Ｆ値」ならば「等分散していない（帰無仮説Hoを棄却できる）」

【表１】

サンプル	系列Ａ	系列Ｂ
１	1.5	15.5
２	2.3	16.2
３	1.9	14.7
４	1.5	15.5
５	2.2	16.2
６	1.7	14.7
７	1.8	16.5
８	2.1	17.2
９	1.8	14.9
10	1.4	14.8

【表１のFTEST】
→　0.004
【危険率５％、自由度Ａ＝１０、Ｂ＝１０の時の基準Ｆ値】
→　2.98
【結果】
「Ｆ値(0.004)＜基準Ｆ値(2.98)」より「等分散している（帰無仮説Hoが採択された）」
よって、ｔ検定に進むことができる。

【補遺１：自由度】
　自由度、という説明が書籍で詳しく言及されていない為に最初わかりませんでした。調べてみると単に「自由度＝サンプル数」だということで理解できました。自由度が高くなると基準Ｆ値が低くなります。サンプル数が多くなるとデータの信頼性が高くなるため基準が低くなっていくのだと思います。

【補遺２：危険率】
　初心者にとって一番意味不明なのが「危険率」だと思います（多分考えた人はちゃんと危険率も計算して設定するのだろうけど）。貴方がやっている実験系はどのくらい正確な基準でデータが出るの？というのが危険率だと思います。誤差の大きい値が出ない実験は危険率が低いという考え方のようです。しかし自分はまだ危険率設定の意味が理解できていません。デフォルトは５％（0.05）であるという文章が書籍に書いてあったし、どの書籍でも５％もしくは１％で例題が解かれているため自分も５％で合わせています。危険率というのは言い換えれば何回やったら等分散から外れた値が出るか、ということだと思いますが。要するに「危険率＝５％」なら「２０回に１回は出鱈目な値が出る条件」なワケで、実はかなり甘い設定のような気がします。１％でやればかなり信頼度高いんじゃないかと思います。

■ｔ検定

　信頼できると判断された２データの間で検定を行い、「ＡとＢには有意差がある」ということを証明する為の統計手法です。Ｆ検定で合格を貰った２系列に対して実行なされることが多いようです。このホームページが非常に優秀です。心理学系で統計学を使われている教授のHPのようです。流石プロ！参考にして下さい。
　エクセルで

【補遺１：尾部】
　１（片側）と２（両側）があります。

【補遺２：判定法】

■C)参考文献

渡邊宗孝・ビギナーの為の統計学
石居進・生物統計学入門
丹後俊郎・統計学のセンス

カテゴリ：一般 > 一般

「生物統計学」をウェブ検索する