p値の批判
2014 Nuzzo, R.(2014). Scientific method:statistical errors. Nature, 506, 150-152
p値はFisherによって作られたが、検定の目的ではなかった
Neymanらが検定の仕組みを考案した
FisherとNeymanが互いに相手のアプローチを批判し合っている間に、他の著者らによって両者の主張がまぜこぜになり、「p値を計算した上で、それを閾値(0.05など)と比較することによって検定をする手法」が誕生した
検定して0.05有意であるという結果を観測した前後で分布がどう更新されるか(ベイズ的解釈) 事前分布でreal effectである確率が5%だった場合、検定で有意と判定されてもその確率が11%に上がるだけ
事前分布で五分五分だった場合、検定で有意と判定された後は71%に上昇する
よくある解釈「有意水準5%の検定をして有意だったら95%の確率で現象が実在する」は誤り
2015 Basic and Applied Social Psychology(BASP)
2016 American Statistical Association(ASA)
色々あるが一部ピックアップ
p値は、仮説が真である確率、もしくはデータが偶然によって生成された確率の尺度ではない
科学的結論と、ビジネスもしくは政策上の決定は、p値が特定の閾値を通過したかだけに依存すべきではない
p値もしくは統計的有意性は、効果の大きさもしくは結果の重要性の尺度ではない
p値はそれ単体では、モデルもしくは仮説に関して良いエビデンスとならない
2016 「p 値に関する最近の議論」(日本語解説) メモ
時間とともにサンプル数が増えるのに、決められたサンプル数になるまでデータを見ないのは不自然
繰り返し見ることは偽陽性率を高める