標準偏差と標準誤差
偏差と誤差の違いを把握しておくのが大切。
偏差は、
ある標本の中で、あるデータ点とその標本平均との差が平均的にどれくらいかを示すもの。
上記の差を標本平均で割った値の二乗和をサンプルサイズで割る、1つあたりの標準的なズレを示す
プラス・マイナスの値がキャンセルされる問題があるので、二乗化して分散を求めてから、二乗根を取る。 (二乗和のが本質なのかも)
データがどうなってますよ、、と記述統計学の範囲で収まる話。
誤差は、
点推定値がどれくらい真の値に近いか、真の値との差が誤差。当然、真の値は分からないが、、
ある分布としてモデル化すると仮定すれば、その分布の性質から、点推定値からの誤差...わからなくなってきた。
大数の法則で、推定値を計算したときのサンプルサイズが大きければ、その推定量で漸近性がだいたいある?ので、バイアスは減っていく。バイアス・バリアンス 標本平均については、中心極限定理で、サンプルサイズが大きければ、正規分布に従うので、ここから誤差(真の分布の平均値にどれくらい近いだろうか)はわかる。 標準誤差は、標本平均と(不明なケースが実際には多)母平均の差(気にする統計量による、ここでは平均) 以下がわかりやすそう。
通常データが与えられると、、、平均が計算される。 98, 100, 104としよう。 母平均は(本当は)100.分散知らん。
ここで標本平均は102。 標本分散は、 (4^2 + 0 + 2^2)/2 = 10 で、標本標準偏差は、sqrt(10)で3.16
(標準)誤差は、102-100で、2. 本当は、母平均は分からないけど、中心極限定理でNを増やせば母平均(集合全体の平均)にsqrt(N)で近づく.
標本平均というのに合わせて、標本偏差と言えばよいのに、、、なぜ標準というのだ、、
あと、標本と標準は見間違え、空目しやすい。
非標準偏差というのがあるのか?と思って探したけど、あまりないな。 non-standard deviationでPDFがあったけど、、、難しそうだった。