p値 - インタフェースの心理学

p値

新しく作ったシステムのユーザ評価を行なうとき、結果がどの程度信頼できるのかを示す指標としてp値がよく利用されています。

Wikipediaでは以下のように記述されています。(2017/8)

帰無仮説の下で実際にデータから計算された統計量よりも極端な（仮説に反する）統計量が観測される確率を、p値という。

帰無仮説(null hypothesis)とは「効果や違いが無い」という仮説で、これが否定されれば「効果があった」と判断できます。

たとえばイカサマコインの判定は以下のように行ないます。

コインの裏表が対称だという帰無仮説をたてる

コインを10回投げたら全部表だったとする

偶然そうなる確率は $ 1 / 2^{10} = 0.001

p値=0.001 で最初の仮説が棄却される

つまりコインは対称でなかったと判定される

/icons/水平線.icon

base rate = 基準率

何度も比較を行えば、本当は存在しない現象が存在するかのように判断されてしまう可能性がある。

https://gyazo.com/827edce3766ed2026086631854085457.png

Nature記事

検定力が低い実験を何度もやると良いp値が出てしまう?

帰無仮説が成り立っているという条件のもとで、ある統計的な事象が発生する確率

($ Hが帰無仮説, $ xが統計量とする)

$ P(X = x | H)

この確率(p値)が低いということは、最初の条件(仮説)が成り立っている確率も低いわけだから、仮説が成り立っていないものとしてよい(=帰無仮説を棄却してよい)、ということ

https://xkcd.com/882/ https://imgs.xkcd.com/comics/significant.png