信頼区間と予測区間 - 未来の自分を助けるメモ

信頼区間と予測区間

モデルを立てて、そのモデルから予測される応答変数の取りうる範囲が、確率的に95%(例)に収まる範囲。

ベイズならすんなりだが、、頻度論でいくと、考えてる確率分布を遡って、説明変数のそれぞれの値のところで、、、難しい気がする。

Shape of confidence interval for predicted values in linear regression - Cross Validated

precitor(x) responise(y) predicted value(y)でいいかな。用語が混乱しやすい。

ggplotの geom_smooth()のデフォルトはloess( LOcally weEighted Scattter Plot Smooth)

geom_smooth(method="lm")で回帰の信頼区間。

loess is used for less than 1,000 observations; otherwise gam is used with formula = y ~ s(x, bs = "cs"). Somewhat anecdotally, loess gives a better appearance, but is O(n^2) in memory, so does not work for larger datasets.

Local regression - Wikipedia

予測区間は、測定のおける誤差があるので、その分だけ信頼区間から拡張した範囲、でよいかな。

えっと、測定における誤差（標準誤差?)を計算するには、サンプル数,,,う〜ん、分かってないな。

Rなら、intervalで指定できる。

code:R

res_lm <- lm(Y~X, data=df)

predict(res_lm, data_frame(X=23:60), interval="confidence", level=0.95)

predict(res_lm, data_frame(X=23:60), interval="prediction", level=0.95)

参考

おっと危ない：信頼区間と予測区間を混同しちゃダメ - Take a Risk：林岳彦の研究メモ

#信頼区間 #予測区間