データの分解
目的変数の値で、全体の平均からの違いは、各因子(factor)からのズレの和と誤差で構成されるという考え。
この感覚が、私の中に育ってなかったので、分散分析がピンと来なかったのかも。 この分解を、平方和にも適用する。その平方和を自由度で割って、誤差の平方和との比をF値、検定統計量 で表す。 そうすれば、検定による判断ができる。
例
1つの目的変数と、2つのカテゴリ変数という形を考える。
性別による、都道府県別の平均寿命みたいなものを考える。
こんな感じの整然データで、
table:data
y gender prefec
80 F A
86 M A
78 F B
82 M B
table:pivot
gdr\pref A B mean
F 80 78 79
M 86 82 84
mean 83 80 81.5
みたいになる。
全体平均 81.5
Fの平均 79
Aの平均
このときA県のFemaleの値は、80 だけど、
これは 80 = 81.5 + (83 - 81.5) + (79 - 81.5) + (80 - 83 - 79 - 81.5)
全体平均から、genderの効果? prefectの効果、実際の値から、gender,prefecの平均を引いて全体平均を足したもの
これは、$ y_{ij} = \mu + G_{i} + P_{j} + \epsilon_{ij}
いままで、エクセルのpivotでこの形、マージンを平均値で並べるのはしてこなかったけど、あるのか? ありなのか?
エクセルのマージンは、左上に出てほしい。もしくはレベル数を自動で絞って(集約、フィルタリング)ほしい。
回帰式になると、効果部分のところが変数化されるので、係数と変量という形に分かれる(分解される)イメージ。
分割表と偏差や平方和を使った表(何ていうのか?, 最終的には散布図になるが)のイメージが繋がった。