分散
variance
平均はデータの中央を示すのによいが、中央から各データがどの程度散らばっているのかがわからない。 分散でその散らばり具合を示す。
分散の考え方
平均値から各データがどの程度離れているかを求めて、平均化する。
各データを$ x_1, x_2, \dots, x_nとする。$ n個のデータが存在するものとする。
平均値を$ \bar{x}とする。
分散を$ \sigma^2とする。
$ \sigma^2 = \frac{(x_1 - \bar{x})^2 + (x_2 - \bar{x})^2 + \cdots + (x_n - \bar{x})^2}{n}
$ \sigma^2 = \frac{1}{n}\sum_{i=1}^n(x_i - \bar{x})^2
単純にデータと平均の差を平均してはダメなのか?
$ (x_1 - \bar{x}) + (x_2 - \bar{x}) + \cdots + (x_n - \bar{x})
$ = (x_1 + x_2 + \cdots + x_n) - n\bar{x}
$ = 0
単純にデータと平均の絶対値の差を平均してはダメなのか?