前処理の影響について - 「機械学習Ⅰ・Ⅱ（副専攻）」学びの素材集

前処理の影響について

table:前処理による各種ライブラリの動作可否

アルゴリズム：ライブラリ欠損値処理目的変数の数値変換質的変数の数値変換量的変数のスケール変換

決定木：DecisionTreeClassifier 必要不要必要不要

ランダムフォレスト：RandomForestClassifier 必要不要必要不要

XGBoost：XGBClassifier 不要必要必要不要

ロジスティック回帰：LogisticRegression 必要不要必要必要

サポートベクターマシン：SVC 必要不要必要必要

多層パーセプトロン：MLPClassifier 必要不要必要必要

前処理の影響

scikit-learnの仕様上必要な前処理

欠損値の処理をしないと動かない

目的変数の数値変換（ラベルエンコーディングなど）はしなくても動く

アルゴリズムの性質に即した前処理

決定木系モデルについて

量的変数を正規化・標準化するなどのスケール変換は不要

説明変数の分割は変数のスケールに依存しないため

欠損値の処理や質的変数の数値変換などは、理論的には不要だが、ライブラリによってはプログラム上必要（scikit-learnの場合は必要）

ランダムフォレスト、XGBoost等の決定木アンサンブル手法は決定木を集めたモデルなので、前処理についての特徴は決定木と同じ

学習の処理において、説明変数の線形結合を用いていたり、説明変数空間内での距離を求めたりするアルゴリズムでは、各次元のスケールが合っていないとうまくいかない