信頼区間
confidence interval, パラメータを推計する際のもの。推定量の一つ。 ある標本が得られたとする。
その標本から、統計量として、何かの数値を出す。
ここで、母分布を仮定すると、出した数値は、ある推定量の推定値だと、仮定できる。
その推定値の誤差の範囲内(有意水準でどこまでの範囲かは拡大縮小する) に、推定値が収まる(サンプルを取るたびに)、その推定値の範囲を信頼区間と呼ぶ。
信頼区間の推定: 真の平均や分散が、どのような範囲にあるかを標本から推定し、それを確率的に示すこと
間違った採択する確率は、有意水準であるといった、確率的なものいいで、推定値の区間を示せる。
信頼区間の作り方
不偏推定量である標本平均を計算して、標本平均からの誤差を求める。 不偏、 biasは0だが、 サンプルサイズが無限大でないかぎり 標本平均のvarianceは生じる)
母分散が未知(たいていそう)の場合は、標準化された誤差は、t分布に従うので、自由度に応じたt分布での(例えば)95%区間を求める。 t分布からは、t値がでるので、これを真の平均のscaleに戻す.
真の平均とt値の関係は、$ t = \frac{\bar{x} - \mu}{\hat\sigma}\frac{1}{\sqrt{n-1}}から
$ \mu = \bar{x} - \hat{\sigma}\sqrt{n-1}t
で、95%範囲の両端のt値を代入すればよい。
z値なら95%区間は、プラスマイナス1.96だけど、t値は自由度もあるので、そこは気にしておく。
この100個の信頼区間のうち95個のものは真の値を含む、というのが95%信頼区間の正しい解釈になります
https://gyazo.com/7c7218e16fc1d245bb477256375b50f8
ベイズ統計の信用区間は、事後分布がその間に収まる確率を表します。とても自然で分かりやすいですね