信頼区間と予測区間
モデルを立てて、そのモデルから予測される応答変数の取りうる範囲が、確率的に95%(例)に収まる範囲。
ベイズならすんなりだが、、頻度論でいくと、考えてる確率分布を遡って、説明変数のそれぞれの値のところで、、、難しい気がする。
precitor(x) responise(y) predicted value(y)でいいかな。用語が混乱しやすい。
ggplotの geom_smooth()のデフォルトはloess( LOcally weEighted Scattter Plot Smooth)
geom_smooth(method="lm")で回帰の信頼区間。
loess is used for less than 1,000 observations; otherwise gam is used with formula = y ~ s(x, bs = "cs"). Somewhat anecdotally, loess gives a better appearance, but is O(n^2) in memory, so does not work for larger datasets.
予測区間は、測定のおける誤差があるので、その分だけ信頼区間から拡張した範囲、でよいかな。
えっと、測定における誤差(標準誤差?)を計算するには、サンプル数,,,う〜ん、分かってないな。
Rなら、intervalで指定できる。
code:R
res_lm <- lm(Y~X, data=df)
predict(res_lm, data_frame(X=23:60), interval="confidence", level=0.95)
predict(res_lm, data_frame(X=23:60), interval="prediction", level=0.95)
参考