No.609: でーた☆かいせき
月別表示: 2006年06月の記事 カテゴリー: 未分類
2006年06月04日の日記の概要
excerpt
.先月の第1弾が予想以上に反響があったので、第2弾を更新しますwwwwwまさか印刷して持ち歩くつわものがいるなんてね。
第11章
対応のあるt検定を理解するための章。後述の parametric な検定なので、母集団の性質(正規分布など)を仮定する必要がある。対応のあるt検定を使って何をしたいのかとか、そういうことが分かっていないと読むだけで疲れる。(…疲れた。)
端的に言えば「ある二つの母集団」を比較して、その平均とかが同じかどうかを判断する方法について書かれている。
この平均が同じであると判断されれば、二つの母集団は非常に似ていると(曖昧な表現を…)。もしも平均が全然違う値であれば、二つの母集団は異なる。
特にこの「ある二つの母集団」を自己対称な母集団とすれば、治験など薬の効き具合や、ある要因による患者と健常者の相違点などを調べることが出来る。
自己対称とは、二つの group にそれぞれ対応する要素があるような状態。処置前⇒処置後のように、何も関係のない二つの集団ではなく、ちゃんと関係のある母集団を使ったほうが精度の高い比較が可能になるため。
対応する各要素の対について、一方から他方を引いた値を作っていって、この差の母集団分布が正規分布であると仮定すると、検定統計量tを計算することで帰無仮説を検定できる。
自由度n-1での検定統計量tの値から「面積」が出る。即ち、確率が求まる。この値が0.05(有意水準)よりも小さければ帰無仮説は棄却される。逆に、0.05より大きければ棄却することは出来ない。
【第11章のまとめ】
二つの(自己対称な)母集団が似ているか、異なるかを調べたい。要素の差をとり差の母集団分布を正規分布と仮定した上で、検定統計量tを求め、自由度とtとt分布から確率を求め、有意水準で帰無仮説を検定する。
等分散、不等分散の話は省略。そんなに難しくないし…。出たら大変だwww
第12章
現実には二つの母集団を比較するだけではなく三つ以上の母集団を扱うことが多いのでその方法について書かれている。ここを流し読みすると、混乱する。で、分散分析っていう名前付き。
母集団の数が増えると、検定回数が増えていく。(3つの母集団では3C2だが、n個の母集団ならnC2になる)このことが意味するのは、単に面倒な作業が増えるということだけではなく、第1種の過誤を起こしやすくなるということである。
なんでか知らないけど、この「第1種の過誤の起きる確率」と、「有意水準(0.05 = 5 %)」を出来るだけ同じ値にしたいらしいので、このままだと不都合が出てくる。つまり、第11章でやったようにt検定で母集団の類似性を示すことが可能なのは、せいぜいnが十分に小さい場合のみと言うことになる。
ここで一元配置分散分析の登場です。かなりこの章の山場です。
母集団内の話と、母集団間の話、二つ出てくるので。
Within-groups and Between-groups
「各母集団内の平均に対する各要素のばらつきSw」
「全体の平均に対する各母集団の平均のばらつきSB」
この二つの求め方は教科書に載ってるけど、なんか見ているといろいろ思い浮かぶ式だ…。結局なにをやってるんだ…。
最近、数学離れがひどい。
とりあえず、Sb2/Sw2の値を新しい検定統計量Fとすることは把握した。一言で言えば、「 group 内のばらつき」と、「 group 間のばらつき」が同じなら、F=1で、 「 group 間のばらつき」>「 group 内のばらつき」ならばF>1になる。そういうFを定義しただけの話でしょ。
そしてこのFを使ってまた検定するって言うお決まりの流れがあるらしいことも分かった。
ようやく統計に馴れてきた。
Bonferroni correction
「一元配置分散分析」はあまりにも厳しい判定しかしない。つまり、全ての(k個の)母集団が等しいか、どうか。等しくない場合、どうしようもない。再び話は第11章が終わった段階まで戻る。
そこから先の話を進めるためには、前述の type I error の起きる確率と有意水準をあわせるという考えが必要になる。
とうとう、有意水準を引き下げるという、やっていいのか後ろめたい作業に入る。
各母集団ごとに2標本t検定をやると type I error が起こる確率が上がる。だったら、その上がった数値α’に、nC2を掛けた数値が0.05になればいいんじゃね?っていう考えから、Bonferroni correctionが出てきた。
いいのかな…。結局、全体の有意水準は0.05なのでいいのだろうけど。
何となく有意水準をいじるに当たって、不安な気がしたので調べてみた。…気になるなら検索すればいいw
【第12章のまとめ】
三つ以上の母集団を比較する際、普通に考えるとt検定を繰り返すことになるが、それをやってはいけない。第一に手間を考えると現実的でない。第二に「第1種の過誤」が起こりやすくなる。その他問題いろいろ。だからt検定以外の方法が必要。
そこで一元分散分析で検定統計量Fを利用すると各母集団が全て同じかどうかを判断できる。棄却された場合、何も残らないのが最大の欠点。この場合はBonferroni補正を行い有意水準を保守的にすれば(低くすれば)多重検定が行える。
書き終わってから発見したよさそうな websiteを貼っておく。
第13章
parametric と nonparametric。
前者は、母集団の性質が「正規分布である」または「正規分布であろう」のようなときに使える方法で、t検定や Welch の検定(2標本間のt検定)なんかがそう。
後者は、母集団の性質を特に仮定しなくていい。とても便利そうだけど、検出力がやや劣るので標本数を増やさないと同等の検出力を得ることが出来ない。標本数を増やせる場合、とても便利。
符号検定 sign test
独立でない二つの母集団の各要素の差を求める。この辺りが welchの検定に良く似ている。違うのは、元の母集団の性質を仮定していないことと、差の母集団が正規分布ではなくていいことと、この差の「大きさ」を考慮しないということ。ここから絶対値を捨象して符号だけを見る。符号だけを見るとき、この二つの母集団がだいたい同じなら、現れる符号についても正と負の数が同じになるはずである。
ここでnが十分大きければ、検定統計量Z+は正規分布N(0,1)に近似でき、検定を行える。
何気に素晴らしい発想。鬼才現る。
Wilcocon
Wilcocon符号順位検定は独立でない二つの群に使う。
Wilcocon符号順位和検定は独立な二つの群に使う。
なんで?
そろそろ思考力が鈍ってきた。今日はここまでだ。
ところで、「独立でない=対応ある」で合ってるのか?
ここで今日の日記
今日は予定が狂って仮眠しすぎて熟睡に至った。午後から出かけた。涼宮ハルヒの消失とかハルヒのみ合計4冊を買ってきた。あと部屋の片づけが中途半端になっている。たしかに机の周りは綺麗になったけど、机から遠い場所は無残。