共分散
https://gyazo.com/83d4c29c3149f762da2424c8b7263050
二組の対応するデータの間の関係を表す数値
表現: $ \mathrm{Cov}(X,Y), \sigma_{XY}
記号を使って共分散を定義すると$ E[(X-\mu_X)(Y-\mu_Y)]
共分散の値が
大きい(正): Xが大きいとき、Yも大きい傾向がある
$ 0に近い: XとYにあまり関係はない
小さい(負): Xが大きいとき、Yは小さい傾向がある
例
国語、算数の得点をそれぞれ$ X, Yとしたときのデータセット$ (50,50),(50,70),(80,60),(70,90),(90,100)
国語と算数の平均点は
$ \mu_{X} = \frac{(50+50+80+70+90)}{5}=68
$ \mu_Y=\frac{(50+70+60+90+100)}{5}=74
5人について$ Xと$ Yの偏差の積は
$ (50-68)(50-74)=432
$ (50−68)(70−74)=72
$ (80−68)(60−74)=−168
$ (70−68)(90−74)=32
$ (90−68)(100−74)=572
よって共分散は
$ \frac{432+72+(-168)+32+572}{5}=188
→国語の点数が大きいとき、算数の点数も大きい傾向があるといえる
より簡単に求める
$ \mathrm{Cov}(X,Y)=E[XY]−\mu_X\mu_Y
となるので
$ E[XY]=\frac{50\cdot50 + 50\cdot70 + 80\cdot60 + 70\cdot90 + 90\cdot100}{5} = 5220
$ \mathrm{Cov}(X, Y)=5220-68\cdot74=188
共分散の欠点
共分散の大きさを直接的に相関関係の強さとして解釈することができない
e.g. 例の国語と算数のテストが10点満点評価の場合、共分散は$ 1.88
本質的には同じデータだが数値が大きく異なる