カイ二乗検定
適合度検定と独立性検定がある。
適合度検定
カテゴリがあって、そのカテゴリに期待される数字と実際の差の二乗を期待数字で規格化して、和を取った値をカイ二乗分布上の位置に乗せる。
自由度は n-1: nはカテゴリの数
離散型分布であるポアソン分布の当てはまりのチェックなるにもつかえる? 期間による傾向があるなど?
独立性検定
適合度検定とやることは同じだけど、分割表に用いる場合に使う? 分割表の、表則と表頭で2つの確率変数がある。その2つは同時確率が個別の掛け算に等しい(独立)かをみる。
こちらも期待数字と実際の値の差の二乗を規格化して和を取る。
自由度は、(表則のカテゴリ数 - 1) x (表頭のカテゴリ数 - 1)
なぜ掛け算なのか....区分けの数(-1した)だから、掛け算が順当... カイ二乗統計量を..nやkで割って、sqrtしたもの。表全体としての独立性を示す指標になる?
サンプルを得た場合の、母分散の信頼区間の推定
精度が気になる場面は所々あるはず
ピアソンのカイ二乗検定
期待値からのばらつき(偏差) の二乗を期待値で割った(正規化した?)数字の和。これがカイ二乗値の良い近似になるという話?
適用ケースのパターンは2つ
独立性の検定 期待度数との差だけど、分割表から2つの変数が独立してる=>周辺値の割合の掛け算が期待値になる
適合性の検定. 期待度数との差. 経験分布ならレベルの数-1が自由度。モデルを作成したなら、モデルのパラメータ分を更に引からないと適正(不偏性、一致性,, 推定量の性質で満たすもの)にならない。
クイックにできてないといかん。
code:R
chisq.test(x, y,...)
なのだが、引数の定義がよく掴めてない。。。
もともと、カイ二乗値は正規分布を取る確率変数の二乗を、再度、確率変数としてみた場合の通常のもので、観測値と観測値全体平均からの差の二乗和を適用する
そこまで戻る、すなわち、observed, expectedを入れればよい。これのがわかりやすいか。
平均になるという想定で、expected dataを入れればよいので???
https://gyazo.com/76a68558f4a6fd73e260be4a12561e4f