分散
variance
データがどれだけ平均から離れているかを表す指標
字義通りの「データが各所に分散しているかどうか」というのではなく、
あくまでも、平均を基準にして「データが平均からどれだけ離れているか」を表す
分散が小さいと、平均の近くにデータが集中していることを表す
全て同じ値であれば分散は0になる
分散が大きいと、平均から広く散らばっていることを表す
分散の上限はない
平均から離れているものが存在すればそれに引っ張られる
定義
$ V(X)=E((X-E(X))^2)=E\left(X^{2}\right)-(E(X))^{2}
$ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2
(上記の確率変数を用いた式と同じ)
$ s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2
性質
$ V(a X)=a^{2} V(X)
例えば、$ X がある測定値で、単位を変更するためにスケールを変える場合などに使える
$ V(X+c)=V(X)
確率変数$ Xに定数 $ cを足しても分散は変わらない
分散はデータの広がりに関する指標であり、定数の加算は広がりに影響しない
分散の加法性
$ V(X+Y)=V(X)+V(Y)+2\operatorname{Cov}(X,Y)
$ V(X-Y)=V(X)+V(Y)-2\operatorname{Cov}(X,Y)
特に、確率変数$ X,Yが独立の場合は
$ V(X+Y)=V(X-Y)=V(X)+V(Y)
共分散$ \operatorname{Cov}(X,Y)が0なので $ V(aX+bY)=a^2V(X)+b^2V(Y)+2ab \operatorname{Cov}(X, Y)
$ Xと$ Yが独立の時、$ \operatorname{Cov}(X, Y)=0
具体例
データ[2, 4, 4, 4, 5, 5, 7, 9]の時
平均は
$ \mu = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5
分散は
$ V(X) = \frac{1}{8} \left((2-5)^2 + (4-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2\right)
あるいは
$ \sigma^2 = \frac{1}{8} \sum_{i=1}^{8} (x_i - \mu)^2
なので、4.0
1つのデータセットに対して、「分散が4でした」と言われても、ふーん、としかならないなmrsekut.icon
単位が存在しないので、複数のデータセットで分散を比較してみないと、何の情報も得られない
ちなみに、標本分散で計算すると
$ s^2 = \frac{1}{7} \sum_{i=1}^{8} (x_i - \mu)^2 = 4.571