残差分析
Rで、lm(), glm()の返り値(モデル)を、plot()すると、回帰分析図を書いてくれる。 lm()は、平均値からの共分散/xの分散が係数になるので、平均値から遠い点は注意。
+
残差のplot. 予測値と残差の散布図。ここから、実際の目的変数の観測値を出す問題が統計検定であった。 $ y_i = \hat y_i + \epsilon_iで、
$ \epsilon_i = -\hat{y_i} + y_iがグラフの赤線になるので、直線を降りていけばよい。
https://gyazo.com/6fe8f3a8de0798173588b6c6bcdc603a
Residuals vs fitted
特に難しくはなく、$ \hat yと残差の散布図。予測値と残差の散らばりぐあいがみえる。
Normal Q-Q
qはp()の逆関数の意味で使ってそう。
こちらは q-qプロットのy軸が normalでないけど、すごく丁寧な解説でよんでわかった。最初に読むべきかも。
両軸を、z化?した場合、傾き1の曲線になるはずだけど、微妙にならない気がする(Rでplot(lm(...))すると。理由不明
Scale-Location
これは、最初の residuslas vs fittedで、residualsの二乗根にして、予測値と残差の大きさとの関連をみてる。
Residuals vs Leverega (てこ比) 数式がイメージできてないけど、xの平均からのズレがレバレッジになってるはずなので、、説明変数サイドの平均値からのずれの影響をみてる。
観測の削除により生じた係数のベクトルの変化を正規化したものです
動機とやり方はわかった気がする。係数側への関心が強い場合は大事ぽい。
それがなかったら思考は、結構いろいろ出てくる。