統計量
パラメータ(母数)との区別をはっきりさせる
$ \bar x (標本平均)と $ \mu(母分布の平均)の違い。そのための$ \hat\mu
S と $ \sigma^2の違い $ nS/\sigma^2は(n-1)自由度のカイ二乗分布になる。 記述統計学の話
サンプルから得た値を計算した量。サンプルサイズnなら、n個の値を集約した値。統計量( statistic)
代表的なのは標本平均と標本分散,(偏差平方和をサンプルサイズで割る)
推測統計学の話
母集団のパラメータを推定したい場合は、統計量から推定量(estimator)の話になる。 推定なので、確定しない、
分布を持つ(毎回計測するたびに違う統計量が観測される。誤差がある) 信頼区間を考えて、誤差を使って、真の値がこの範囲にいるかを議論する。これが検定統計量 具体的には、
母集団の平均
標本平均( $ \bar{X} )
母集団の分散
推定量の性質
不偏推定量: 求めた推定量の期待値が、もとの母集団の該当する統計量と一致するなら、不偏。 ベイズ推定の場合は、パラメータの分布自体をデータから(事後)推定するので、検定いらない。
標本の偏差平方和をサンプルサイズ-1で割ったものが便利。これが不偏推定値(unbiased estimate)になる。
母集団を母数(観測できない)によって特徴づけられる確率分布として仮定し、そこからあるサイズの標本をランダムに抽出するものとする。母数の値.....は観測できないが、それに対応する統計量....は観測できる。また母数と対応する統計量の差、推定量の偏り、これは直接観測してるわけでないので、統計量ではない。 順序統計量 中央値とか
出典忘れだけど、
母集団の未知変数 $ \theta を推定するために、この母集団から大きさnの標本 X1, X2....Xnのある関数T(x1, x2.. xn)を作り、標本の実現値x1, x2, ..xnから求めたT(x1,x2,,,xn)で、$ \theta の値を推定することを点推定という。
この時 統計量T(.....)を推定量、その実現値を推定値という。
ここで、このXは、確率変数 ということで、たぶん良い。 一番簡単なTは、平均で、 T = function(x) { return sum(x)/length(x)} xはサンプル集合?という言い方でよいか?