分散
分散とは、データが期待値からどれだけ離れていると期待できるか(期待値)
説明変数由来の分散と、誤差(説明変数によらない分散)を比較して、検討することにより説明変数の効果のほどを吟味できる。
分散分析(anova, analysis of variance)という言葉があり、分散はうまく変数ごとに?分解できる(独立してるとして)ので、その変数による変動分析みたいなことができる。 通常の足し算とは違う?けど、計算ができる。共分散がつく。X,Yが独立ならこの部分は0 $ Var(X + Y) = Var(X) + Var(Y) + 2Cov(X,Y)
2回試行して、その結果の足し算の結果を別途、確率変数として、その期待値を考える状況。
以下は、物体Xを半分づつに切ってストックしておいて、そこからランダムに2つを選んで足した時の状況
ランダムに2つ選んで再度くっつけた確率変数を考える。 分散は1/2に減る. お互いに独立した確率変数を1/2にしてsum()した確率変数。
ランダムに選んで平均すれば、その平均した確率変数の統計量は分散が1/2になる。
精度、サンプル平均値と(見えない)真の平均値(平均のある分布、全部かな?)を上げられる。
https://gyazo.com/92ae2fa15757b16d51ac4e25d04cd792
確率統計の本で、
$ Var(X + Y)や $ Var(X - Y) を求めなさい。 X,Yは独立。
Xの分散は $ \sigma_{x}^2, Yの分散は $ \sigma_{y}^2
答えは、両方とも、 $ \sigma_{x}^2 + \sigma_{x}^2
だけど、腑に落ちない感がある。
で、 $ Var(\frac{1}{2}X + \frac{1}{2}X) を考えたら納得できた。
半分に分割できるなら、分割して2回に分けたほうが、トータルの分散は減る。
問題は、Xを二回する場合に、その試行が、独立かどうか、、、独立な場合はあまりないか....