Excel分析ツール③
Excel で χ2 検定
どんな時使うか
理論的に計算される数値と、実際に観察された実測値とがよく一致しているかどうか。
注射薬のボトルの破損件数は、月によって差があるかどうか。
7 つの病棟でとったあるアンケート結果で、病棟間で回答に違いがあるといえるか。
あるYES・NO式のアンケートをとった。その回答パターンに、男女で差が見られるか。
狭心症の新薬を服用した人と、プラセボ(偽薬)を服用した人の発作の出現回
数を比べて、新薬に効果があったかどうかをみる。
プロ野球と J リーグのどっちが好きかという質問で、年齢層による違いが見ら
れるか。
公務員 130 人・政治家 103 人・タレント 89 人の血液型(A・B・O・AB)を調
べた。職種によって血液型の比率に違いがあるか。
基本的な使い方
例題 1)出産は人為的にコントロールされているか?
1982~1983 年生まれの大学生の誕生日が何曜日だったかを調べ、曜日ごとの人数を集計して、
表にまとめた。もし出産が人為的にコントロールされているとしたら、曜日ごとの人数の分布に有
意の差がみられるはず・・・
https://gyazo.com/5bee7af8feb8970afe962639c4da7000
帰無(きむ)仮説と 対立仮説を立てる。
帰無仮説・・・誕生日には、曜日の偏りはない。
対立仮説・・・誕生日には、曜日の偏りがある。
自由度を計算する。
χ2 検定の関数で使う自由度という数値を算出。
計算式: 自由度=ヨコの項目の数-1 例題の表の場合は、7-1=6
有意水準(α)を、5%か1%に決める
一般的には 5%(α=0.05)を使う。より厳密な検定をしたい場合は、1%(α=0.01)にする。
表をつくり、理論値を計算する。
理論値とは、帰無仮説が正しいとして、理論的に計算される値
例題の場合は、「曜日によって、偏りがない」なので、各曜日の理論値はどれも、
単純に合計人数÷7(曜日)で計算。
https://gyazo.com/658270c64488bd60b6f0134f90cf0bcd
↑どの曜日も、341÷7=48.71
表をつくり、χ2値を公式で計算する
χ2値は、実測値と理論値のずれの大きさを表す数値
上記の同様の表をつくり、各曜日のセルに、次の計算式で出した値を入れる。その合計がχ2値。
χ2値を算出する表で使う計算式 ・・・・・・ (実測値―理論値)2÷理論値
Excel の計算式では ・・・・・・・・・・・・・・・・・・ (実測値―理論値)^2/理論値
※「^」の記号は、キーボード右上の「へ」キーで入力します。
χ2値を求めるための表
https://gyazo.com/247fe98599ddae91649931cae4049c6e
CHIDIST 関数で、p値を求める
p値とは、帰無仮説が正しい場合に、算出したχ2値以上の差異が偶然に誤差として生じる確率
https://gyazo.com/874c6b726f99e0c29a4a2e2122cab6d3
p値とα(0.05 または 0.01)を比べて、どっちの仮説を採択するか判定
p値=帰無仮説が正しい場合に、実際のデータのような差異が偶然生じる確率
p値がもし 5%より低い確率(p<0.05)なら、「偶然には、めったに起こらないこと」と考える。
=実測値に現れた差異は、偶然の誤差とはいえない。有意の差がある。
=帰無仮説は正しくない。帰無仮説を棄却する。
p値がαより小さければ・・・以下のように判定します。
有意水準 5%(あるいは 1%)で帰無仮説は棄却され、対立仮説が採択される。
曜日ごとの誕生日の分布に有意の差がみられる。
曜日によって偏りがある=出産日は人為的にコントロールされていた。
p値がαより大きければ・・・以下のように判定します。
帰無仮説は棄却できない。
曜日ごとに偏りがあるとはいえない。
このデータからは、出産日に人為的なコントロールがあるとはいえない。
Excelでカイ2乗検定