考え方と手順
#テーマ4
仮説統計とは
母集団について仮定された仮説(数学では命題という)を標本(sample、母集団の一部分)に基づいて検証することである
そのなかで仮説とのズレが命題に意味を持つのか、誤差の範囲内なのかを検証していく。そして、意味を持つ場合は、仮説とのズレを「有意」といい、立てた仮説を「統計学的仮説」という。
命題の証明と統計の違いは、例を挙げて説明すると、
命題:牛丼屋にいて、周りの人は牛丼を食べている。
証明:正しくない。(カレーを食べている人が少数いるから。100%ではないから。)
統計:正しい。(ほとんどの人が牛丼を食べているから。)
つまり、ズレがあり、仮説を100%立証するのが難しくても、「確率」を導入することで判断できる統計の利点である。
棄却と採択
採択:統計学的検定において、データは命題に関して意味があるとみなすこと(採択する範囲を採択域という)
⇅
棄却:統計学的検定において、データが命題から外れていると見なすこと(棄却する範囲を棄却域という)
帰無仮説と対立仮説
帰無仮説:仮定している仮説の成り立つ条件とは反対の条件(p≠1/2が仮説ならば、p=1/2が帰無仮説)
対立仮説:仮説の条件
統計学的仮説検定では、希望する仮説「対立仮説H1」の逆、「帰無仮説H0」を否定するこで、対立仮説H1の正当性を示すと、遠回りなことをする。いったん帰無仮説H0が正しいと仮定して帰無仮説H0を検定するのです。
そのなかで、確率合理的な判断を下すために、「有意水準」が存在する。
有意水準:検定において帰無仮説を設定したときにその帰無仮説を棄却する基準となる確率のこと
→対立仮説が成り立つ確率
検定統計量
身長や体重のような値を検定する際に、尺度が確率につながらないため、取り得る値の確率がわからない。そこで、身長や体重を「統計量」という検定するための値に置き換える。2種類の統計量がある。
〇統計量z(=z値)
平均が0、分散が1となるようにデータを標準化した値のことである。
https://gyazo.com/b0e876458b07cba89d2f9c1ceae6c3f3
(xバー:データの平均、μ:母平均、σ²:母分散、n:サンプルサイズ)
分母は標本平均の標準誤差=標本平均の標準偏差を表す。統計量zは標準正規分布に従うため、統計量zを用いた検定を行う際には標準正規分布を用いる。 正規分→確率分布
〇統計量t(=t値)
サンプルサイズnの場合は、自由度n-1のt分布の従う。そしてt分布の定義は下図のようになる。
https://gyazo.com/207fd80830b424bbfc528f023eb4e313
t分布は自由度n-1大きくなれば、標準正規分布に近づく。
そして、統計量tは下図の式から導かれる
https://gyazo.com/2df8a1a76238d87e4e76fed3360e43bf
そして、使われる場合において
統計量tを用いた検定をt検定といい、t検定は、調べる値の母集団が正規分布することが前提条件となる。
仮説統計における誤り
仮説統計は確率を基にした判断手法で、間違える可能性もある。なぜなら、命題に下しているのは、あくまで確率合理的な判断であり、真か偽ではないからだ。そこで、2種の誤りが出てくる。
第一種の誤り:帰無仮説が採択すべきにも関わらず、帰無仮説が誤っていると判断してしまうこと。
→有意水準で決まり、有意水準が小さくなることで起こりにくくなる。
第二種の誤り:帰無仮説が棄却すべきにも関わらず、帰無仮説が正しいと判断してしまうこと。
→第二種の誤りが起こる確率は第一種のように操作できない。また、二つの確率はトレードオフの関係にあり、有意水準の操作だけでは、両方の誤りを減らすことができない
参考サイト:統計学の鬼門「統計学的仮説検定」とは何か?
https://www.webprofessional.jp/lesson/statistics-hypothesis-testing/lesson01/
23-3. 有意水準と検出力
https://bellcurve.jp/statistics/course/9313.html
t分布とは何か。小標本における母平均の95%信頼区間の計算法とその解釈
https://atarimae.biz/archives/14046