基礎から学ぶ統計学
検定の論理
薬Aと薬Bの比較
Aの有効性は0.6と判明している
Bは18/20人に効果があった。つまり0.9。しかしたった20人のサンプリングでAより優れてるって言って良いのか
帰無仮説はくらべるもの同士が等しいという仮説→これを棄却することで「比べるもの同士は等しくない」 統計検定量を導入し、この統計検定量が従う帰無分布を想定。二項分布の場合は人数がそのまま統計検定量 (A=Bだった場合)帰無分布において18人はどれくらい起こりづらい人数か?
メチャクチャ起こりづらいならA=Bといえず薬効に差はある
片側検定は「等しくない」ではなく「優れている」等を判断できるが、賛否両論なので導入は避けたほうが良さそう
検定統計量
検定には二項検定とかWMW検定とかいくつか種類があり、それぞれについて統計検定量が決まっている(たぶん)
なので、それをもとに統計検定量の分布を過程し、得られた結果が珍しいものかどうかを判定する。これが検定の流れ
相関と因果
相関は事実(気温とかき氷の売上をプロットすると「確かに」右斜めな相関が見える)
因果は相関から直接は見えない
交絡因子いるかも(測定されていない、真の原因となりえる変数)