p値
新しく作ったシステムのユーザ評価を行なうとき、結果がどの程度信頼できるのかを示す指標としてp値がよく利用されている。 帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率を、p値という。 帰無仮説 (null hypothesis)とは「効果や違いが無い」という仮説で、これが否定されれば「効果があった」と判断できる。たとえばイカサマコインの判定は以下のように行なう。 コインの裏表が対称だという帰無仮説をたてる
コインを10回投げたら全部表だったとする
偶然そうなる確率は $ 1 / 2^{10} = 0.001
p値 = 0.001 で最初の仮説が棄却される
つまりコインは対称でなかったと判定される
Web上にもいろんな情報がある。
base rate = 基準率
何度も比較を行えば、本当は存在しない現象が存在するかのように判断されてしまう可能性がある。
https://gyazo.com/827edce3766ed2026086631854085457.png
http://images-jp.amazon.com/images/P/4326504331.01._OU09_PE0_SCMZZZZZZZ_.jpg
Nature記事
検定力が低い実験を何度もやると良いp値が出てしまうらしい。 帰無仮説が成り立っているという条件のもとで、ある統計的な事象が発生する確率 ($ Hが帰無仮説, $ xが統計量とする)
$ P(X = x | H)
この確率(p値)が低いということは、最初の条件(仮説)が成り立っている確率も低いわけだから、仮説が成り立っていないものとしてよい(=帰無仮説を棄却してよい)、ということ
https://xkcd.com/882/ https://imgs.xkcd.com/comics/significant.png