p-value
en: p-value
aka. significant probability
ja: 有意確率
非常に誤解しやすい。
謎
これは なんだ?wint.icon
注意
有意性と effect size は別なコトに注意せよ。 端的な定義
帰無仮説を棄却できる最小の有意水準
ref. 黒木学 (2020)『数理統計学』p. 197
帰無仮説が成り立つと仮定した確率モデルにおいて実際にデータから計算された統計量よりも極端な統計量が観測される確率
解釈
ざっくり、(モデルから見た)外れ値が出る確率、で良い様だ。
分類
p-value
操作的定義
形式的に定式化する。
ℙ, 𝕀 が謎
3種類の定義がある。
The probability of observing under H₀ a sample outcome at least as extreme as the one observed is called the P-value. The smaller the P-value, the more extreme the outcome and the stronger the evidence against H₀.
ref. Rohatgi (2001)
p-value. In general, the p-value is the smallest level α₀ such that we would reject the null-hypothesis at level α₀ with the observed data.
ref. Schervish (2012)
形式的な定義に一番近そう。
p値の満すべき性質(制約)
A p-value $ p(X) is a test statistic satisfying $ 0 \le p(X) \le 1 for every sample point $ x. Small values of $ p(X) give evidence that $ H_1 is true. A p-value is valid if, for every $ \theta \in \Theta_0 and every $ 0 \le \alpha \le 1: $ P_{\theta}(p(X) \le \alpha) \le \alpha.
ref. Casella, Berger (2002) Statistical Inference, ISBN: 9780534243128
def. 8.3.26 (§8.3.4, p. 397)
設定
モデルのパラメーター空間(の部分空間) Θ
Θ の2分割の片方
Θ の2分割のもう片方
そのドメインは S?
標本集合 Ω
標本点 ω
事象空間 F
標本のあつまり S?
検定統計量 T
確率測度 P, ℙ: F→I
power function β
sample size に比例する?
サイズ = 水準: α ∈ I
size
ref. (Casella; Berger, 2002, def. 8.3.5, p. 385)
level
ref. (Casella; Berger, 2002, def. 8.3.6, pp. 382–383)
同義語
自分で決められる。
モデル外部からのパラメーターと言えるか。
2元空間 2 = {0,1}
単位開区間 $ I_\text{open} = (0,1)
仮説検定関数 φ
a collection of hypothesis tests $ φ_α
指示関数 $ φ_α(x) は α について単調
$ P_\theta(\bold{X}) : P of type 1 error OR 1 - P of type 2 error
ref. (Casella; Berger, 2002, §8.3.1, pp. 382–383)
これで power function β を定義する。
ref. (Casella; Berger, 2002, def. 8.3.1, p. 383)
要約
定義
$ p: S → I_\text{open} = λs. \inf\{α∈I_\text{open} \mid φ_α(s) = 1\}
prop.
自分の理解と手順
帰無仮説と対立仮説を立ててモデル化する。
ここで有意水準を決められる。
帰無仮説を棄却する一様最強検出力検定を実施したときの水準αのこと?
有意水準なので、あってそう
注意
検定理論も古典統計なので、プロセスの正しさしか示せない。モデルの正しさは別途たしかめる必要がある。 p-値が小さいことからモデルの正しさを結論するのは、後件肯定の誤謬である。 ref. 黒木学 (2020)『数理統計学』p. 197--198
t検定
標本統計量の分布を利用する。
つまり parametric test
Wilcoxonの順位和検定
nonparametric test
ref.
https://www.youtube.com/watch?v=vz9cZnB1d1c
https://threadreaderapp.com/images/screenshots/thread/1345346374640967683.jpg
P値と信頼区間は表裏一体で別の話題にはならない。
P値の定義は大雑把に「データの数値以上の偏りがモデル内で生じる確率」です。
信頼区間=検定で棄却されないモデルのパラメータの範囲
P値はモデルの確率分布でデータの数値以上に極端な値が生成される確率またはその近似値
Biau, David Jean MD1, a; Jolles, Brigitte M. MD Msc, MD2; Porcher, Raphaël PhD1. P Value and the Theory of Hypothesis Testing: An Explanation for New Researchers. Clinical Orthopaedics and Related Research 468(3):p 885-892, March 2010. | DOI: 10.1007/s11999-009-1164-4