Why do tree-based models still outperform deep learning on tabular data?
なぜテーブルデータではGBDTなどの決定木ベース手法がNNよりも強いのかについての論文 なので, 飛び値的なデータに弱い
一方決定木ベース手法は領域を長方形に区切ってるだけなので飛び値的なデータに強い
実験: ガウシアンフィルタを掛けて平滑化することで飛び値の影響を比較
https://gyazo.com/363739123631883a83dfad7683ecaf80
実験: ランダムフォレストで得られた特徴量の重要度を元に特徴を少しずつ削除して結果を比較
https://gyazo.com/b9747f48361714189fd181cd2e3ae401
3つ目: テーブルデータは回転不変性を持たないので, NNの学習は向かない NNは回転不変性を持つ. すなわち, 任意のユニタリ行列を掛けて入力してもほとんど出力に影響がないように学習される 実験: 回転を掛けたバージョンとそうでないものを比較
下図を見ると, 回転を掛けることで順位が逆転している(NN > Tree-based)
https://gyazo.com/234dc70cd41f48e457e4b268ced390ce