検定の種類
今回は6つの検定を取り上げた。
t検定
分散分析
カイ二乗検定
無相関検定
U検定
F検定
t検定
目的としてはデータの値が統計全体にとって有意なものかを判断するためのもの→母平均を分析している
用途が3種類あり、
①1標本問題→正規分布に従う一つの母集団の、母平均が特定の値と等しいかの検定
②2標本問題→二変数のデータを集め、二つのデータの検討するための手法である。
③回帰分析における回帰直線の回帰係数が0であるかに関する検定
※回帰分析・・・2変数のデータを集め、2つの関数においての互いの影響性を調べるためのもの
自由度はn-1 (nは標本の数)
基本的な式はこのようになる。
https://gyazo.com/2df8a1a76238d87e4e76fed3360e43bf
t値=平均値の差/√分散/√サンプルサイズ を上の式は表している
t値が出た後は、p値も求めて、t値とp値を合わせて見る。p値が0,05より小さければ確率はt値の出る確率は小さいと言える
そもそもp値は、t値が大きくなって、差があるように見えてしまう確率のことである。
分散分析
t検定と同じく母平均を分析している
t検定との違いは変数において3群以上を扱っている扱っている点にある
→2群だと、式から導いた値から2変数の関連性があることがすぐにわかるが、3群以上であると、どの変数がどの変数に影響しているのかがp値からでは一発で判断できない。
https://gyazo.com/634faaa25bbff485e39613195490e2d1
そのときのために分散分析表を用いる。
https://gyazo.com/dd88f87bb26cbf9b589140c37542c956
参考サイト:分散分析とは?分析分散表の見方やf値とp値の意味も分かりやすく
カイ二乗検定
カイ二乗検定とは帰無仮説が正しいとしたもとで、検定統計量が(近似的に)カイ二乗分布に従うような仮説検定手法の総称で、代表的なものとして、ピアソンのカイ二乗検定、カイ二乗の尤度非検定、マンテル・ヘンツェルのカイ二乗検定、イェイツのカイ二乗検定などがある
用途①:二つの変数に関連が言えるのか否かを判断するための独立性の検定がある。
用途②:帰無仮説における期待度数に対して、実際の観測データの当てはまりの良さを検定するための適合度検定
方法は 1:期待確率から期待度数を計算 期待度数=その属のデータサイズ*その属性の期待確率
2:カイ二乗値を計算する
3:p値を求める
基本的な式は下図のようになる
https://gyazo.com/eec4ed94e8dbf7b4a706bab238cbbb30
※自由度はデータサイズから求まる→データの大きさを表す
参考サイト:tokei-net 全人類がわかる統計学
無相関検定
目的はある標本の相関係数を求めた際に、その相関係数に意味があるのかどうかを決定することである
母相関係数が0であることを帰無仮説としている→2つの変数が独立であることを確かめる
方法:①データの相関係数を求める
②その相関係数における統計量tを求める
③P値を求めて分析する(tdist関数を用いる)
統計量Tの求め方
https://gyazo.com/7622601888eb4565fb7341f1a7c869de
参考サイト:統計WEB 無相関の検定―相関係数の有意性を検定する
U検定(マン・ホイットニーのU検定)
中心分布の差を検定するノンパラメトリックな手法
→パラメトリックな方法である2標本t検定(対応のないt検定)を使うことができない場合に選択することになります。
使う場合としては2つの集団の変数を比較したい場合で,正規分布に従ってない時である。
ex)運動指導した集団(介入群)と運動指導しなかった群(対照群)の2ヶ月後の運動習慣のアンケートを行なったデータがあって,それぞれの得点の中央値を比較したい時に使います。このように比較対象が違う集団であるところがこの検定のポイントです。
仮説の設定としては
帰無仮説 (H0) :運動指導群の中心分布 = 非運動指導群の中心分布
対立仮説 (H1) :運動指導群の中心分布 ≠ 非運動指導群の中心分布
検定結果の指標としてはp値を用いて有意なデータか判断する
参考サイト:Study channel Mann-WhitneyのU検定
F検定(等分散の検定)
2つの母集団のχ2値を自由度で割ったものの比である
目的としてはF検定は2群の差の検定を行う前の、2群の母集団が等分散であるどうかを判定するためのものである。
検定の方法
①帰無仮説を2群の母集団に差はない(つまり同じである)とする
②等分散かどうかを検定したいので、F値を検討します。ここで①にて2群の母集団に差はないと仮定しているため、こちらで記載した不偏分散の比であるF値を使用することが出来ます。ある標本データの不偏分散の比のF値が5となったとします。
③5 %水準(上側)として判定するとします。
例として、自由度が分子:3、分母:7であるとすると、4.35という値が限界値だとすると
④限界値4.35に対して、実際の算出値が5となったため、帰無仮説は棄却され、2群の母集団に差はある
https://gyazo.com/a52f38cb2a63a5daa98369363509a50d
※t検定だけでは無く、他の多重比較法を用いる上でも等分散かどうか確認しなければならない。
参考サイト:電池の情報サイト F検定(等分散かどうかの検定)