ロバストなデータ
public.icon
ロバストというのは、イレギュラーなこと(外れ値・ノイズ)が起きたときでも推定性能が高いこと
外れ値
中央値は平均値より外れ値に対してロバスト
平均値は外れ値の影響を受けやすい
中央値は、平均値より外れ値の影響を受けにくい
中央絶対偏差は標準偏差より外れ値に対してロバスト
ただ、標準偏差のかわりに使うときは、中央絶対偏差に1.4826をかけて補正する必要がある
ロバストな標準化を行った後の主成分分析 (Principal Component Analysis, PCA) をロバスト主成分分析 (Robust PCA, RPCA)、部分的最小二乗法 (Partial Least Squares, PLS) をロバストPLS (Robust PLS, RPLS) とよんだりします。
ノイズ
PCAで前処理した後に、たとえば目的変数との間で回帰分析をすることで、ノイズの影響を受けにくい回帰モデル、つまりノイズに対してロバストなモデルができる
過学習
過学習が起きたモデルは、ロバストなモデルではありません
参考
ロバストなモデル・手法・方法ってどういうこと?推定性能が高い、とは違います!|データ化学工学研究室(金子研究室)@明治大学 理工学部 応用化学科