t検定
#テーマ4
#t検定 に関する説明
まずは、期待値が0と異なるかどうかを表す指標をつくる
(t検定では「t値」と呼ばれる指標)
t値は以下で計算される。
t値=期待値−0標準誤差
分子が大きければ ・期待値と0との差が大きい
分母が小さければ ・標準偏差(分散)が小さい
→データが期待値から離れておらず、期待値を信用できる
サンプルサイズが大きい →データの量が多く、期待値が信用できる
の両方が満たされていることになる。
t値が大きければ、期待値は0と異なるとみなすことができそうです。
hr.icon
t値が大きいか小さいかをどのようにして判別するか、です。この課題を解決するため、検定は、以下の手順を踏みます。
①期待値が0となる確率分布を無理やり作り、この確率分布に従うデータをシミュレーションにより何度も取得し、t値を何度も計算する(例えば100回計算したとします)
②手持ちのデータからもt値を計算する(例えばt値=2.59となったとします)
③①で計算された複数のt値が、②で計算されたt値(2.59)を超えた回数を記録する
④その回数が100回中5回以内であれば、「偶然でt値が2.59を超える確率」が0.05以下となります。→この確率が0.05を下回っていれば有意差あり、とみなします。
xi={−1,−1,0,0,1,3,5,6,7,7}
このデータの期待値は2.7なのですが、0以下の値も混じっています。そこで、「このデータの期待値が0と有意に異なっているか」をt検定してみます。
t値を計算する
期待値 :2.70
標準偏差 :3.30
サンプルサイズ :10
標準誤差 :1.04(標準偏差÷10の平方根)
t値 :2.59(期待値÷標準誤差)
t検定の難所は、「期待値が0となる確率分布を無理やり作り、この確率分布に従うデータをシミュレーションにより何度も取得し、t値を何度も計算する」という部分です。これを普通にシミュレーションすると面倒なので、便利な数式を使います。それがt分布の確率密度関数です。
t分布:t値の確率分布
t値とサンプルサイズを指定すると、「シミュレーションの結果、期待値が0なのに、t値が2.59を超えた確率」がすぐに計算できます。「偶然でt値が2.59を超える確率」が計算できるということです。
Rの例
(1-pt(2.59, 10-1))*2
0.02921347
Excelの例
=TDIST(2.59, 10-1,2)
TDISTという関数に、t値と「サンプルサイズ-1」を入れます。サンプルサイズそのものでない理由は難しいのですが、不偏分散で出てきたときのように、サンプルサイズをそのまま使うと偏りが出てしまうので、訂正した、くらいの感覚でまずは大丈夫です。
最後に、「2」を関数に入れています。t値が大きくなる時は2パターンあります。「期待値が0と『離れて』いる」というところが問題。「離れている」という条件を満たすだけなら期待値が0より大きくなくても、0より極端に小さい(マイナス100とか)状況であってもよいわけです。このように「期待値が0から大きいときもあるし、小さいときもある」ということを指定するために「2」を入れています。
「偶然でt値が2.59を超える確率」は2.92%となりました。これは十分小さいとみなせるので、t値は大きいと判断できます。よって、先ほどのデータの期待値は「0と有意に異なる」とみなすことができます。
参考資料
統計的仮説検定の基礎 logic-blue
https://logics-of-blue.com/統計的仮説検定の基礎/