回帰における評価指標
回帰における評価指標
回帰問題における評価指標には主に以下のようなものがある。 RMSE(Root Mean Squared Error:平均平方二乗誤差)
$ RMSE = \sqrt{\frac{1}{N} \sum^N_{i=1}(y_i - \hat{y_i})^2}
$ N:レコード数
$ y_i:$ i番目のレコードの真の値
$ \hat{y_i}:$ i番目のレコードの予測値
「誤差を二乗したものの、全データに対する平均」の正の平方根なので、要するに「平均的に真の値からどれだけずれているか」を測るもの
RMSEが小さいほど誤差が小さいので「良い」とする
平均なので、外れ値の影響は受けやすい
平方根を取る前のMSEをそのまま用いることももちろんある
$ MSE = \frac{1}{N} \sum^N_{i=1}(y_i - \hat{y_i})^2
MAE(Mean Absolute Error)
$ MAE = \frac{1}{N} \sum^N_{i=1}|y_i - \hat{y_i}|
これも「小さい方が良い」指標
外れ値の影響はRMSEより低減される
微分が不連続になったり二次微分が0になったりと、扱いにくい場合も
決定係数$ R^2
$ R^2 = 1 - \frac{\sum_{i=1}^N (y_i - \hat{y}_i)^2}{\sum_{i=1}^N (y_i - \bar{y})^2}
$ \bar{y} = \frac{1}{N} \sum_{i=1}^N y_i
回帰分析における$ R^2のこと
最大で1をとり、1に近いほど精度が高いことを意味する(すべてのデータが予測値と一致する場合に1となる)
これを最大化するのは、RMSEを最小化するのと同等