重回帰分析
multiple regression analysis
ストーリー
3. 説明変数の選択を行い、有用な変数を選択
4. 残差とテコ比の検討を行い得られた回帰式の妥当性を検討 5. 予測する
重回帰モデル
$ y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\cdots+\beta_{p} x_{i p}+\varepsilon_{i}に対して
回帰母数$ \beta_{0},\beta_{1},\beta_{2},..を推定する
最小二乗推定量
$ \hat{\beta}_0=\overline{y}-\hat{\beta_1}\overline{x_1}-\hat{\beta_2}\overline{x_2}.
$ \left(\begin{array}{c}{\widehat{\beta}_{1}} \\ {\widehat{\beta}_{2}}\end{array}\right)=\left(\begin{array}{ll}{S_{11}} & {S_{12}} \\ {S_{21}} & {S_{22}}\end{array}\right)^{-1}\left(\begin{array}{l}{S_{1 y}} \\ {S_{2 y}}\end{array}\right).
ここから、$ Sが逆行列を持っていないといけないことがわかる つまり$ |S|=S_{11}S_{12}-S_{12}^2が0になってはいけない
説明変数の選択の方法
目的変数に影響のある説明変数のみをモデルに含めたいという動機
いらんやつを含めすぎたときのデメリットは?
b1,b2が必要でb3が必要ないものだとすると、yと無関係でもb3を推定する必要が出てくる
この無駄な推定のためにb1,b2の持っている情報を使うことになり、結果的にb1,b2の推定精度が悪くなってしまう
その変数が含まれていれば、交絡因子があっても、相関がある変数を見つけることができる