信頼区間
信頼区間 - Wikipedia
統計学で母集団の真の値(母平均等)が含まれることが、かなり確信 (confident) できる数値範囲のこと
同じ方法で作った区間の一定割合が真の値を含む
「真の値がこの範囲に入る確率が95%」ではない
この方法で作った区間の95%が真の値を含む
データを取り直すと区間が毎回変わるので、作られた区間の95%が真の値を含むものになる
慣例で95%信頼区間が最もよく使われる
厳しすぎず甘すぎないマイルドな値らしい
推定値 ±(ばらつきの大きさ)×(信頼係数)
平均の場合(最も基本)
母平均の95%信頼区間:$ \bar x \pm z \times \frac{\sigma}{\sqrt{n}}
z値(z-score)
95%の場合は1.96
正規分布±1.96σ の範囲に約95%が入る
97%, 99%など信頼区間の条件はここの値で変える
標準誤差 $ = \frac{\sigma}{\sqrt{n}}
​$ \sigma: 標準偏差
$ n: サンプル数
サンプル数を増やすと誤差が減る
例) テスト
平均:70点
標準偏差:10点
サンプル人数:100人
標準誤差は$ \frac{10}{\sqrt{100}}=1
95%信頼区間: $ 70 \pm 1.96 \times 1
68.04~71.96
この時、「母集団の平均点は68.04~71.96の間に来る確率が95%だ」と言いたくなるが違うらしいmtane0412.icon
同じ条件で標本抽出と区間推定を何度も繰り返すと、作られた区間の約95%が真の平均を含む
頻度主義
code:txt
真の平均(固定): ●
区間1: ──────●────── ✓
区間2: ────────●─────── ✓
区間3: ──────●──────── ✓
区間4: ──────●──── ✗
区間5: ──────●────── ✓
信頼区間を使う嬉しさは、
実際には1回しかやらないんだけどめちゃくちゃ繰り返した時の信頼度が得られる
得られた区間の広さから推定の精度がわかる
言葉にすると
今回1回しか作ってないけど、同じ手法で繰り返して作ると作れられた区間95%が真の平均を含むものになるよ
だから今回の全体の平均は68〜72点程度と考えるのが妥当だよね
ここで「〜点になる確率が高い」というとちょっと違うらしい。難しい
例2) サンプル数がめちゃくちゃ少ないテスト
平均点70点
サンプル人数: 5人(点数:90, 85, 20, 95, 60)
標準偏差を求める
分散: $ \frac{20^2+15^2+(-50^2)+25^2+(-10^2)}{5-1}=\frac{3,850}{4}=962.5
n-1なのは不偏分散
標本標準偏差: $ \sqrt{962.5} \approx 31
標準誤差: $ \sqrt{31}{\sqrt{5}} \approx 13.87
サンプル数が少ないので正規分布ではなくt分布を使う
自由度:$ df = n-1=4
95%信頼区間の係数:$ t_{0.975,4} \approx 2.776
誤差幅: $ 13.87 \times 2.776 \approx 38.5
95%信頼区間: $ 70 \pm 38.5
31.5 ~ 108.5
区間が広すぎてよくない実験だとわかる