特徴量エンジニアリング
from データの理解と前処理
特徴量エンジニアリング
機械学習で扱う予測モデルの説明変数は、特徴量(feature)とよばれることもある(多い)
そのモデルが扱う対象の特徴をとらえる量(変数)、というニュアンス
どのような特徴量を使うかがモデルの性能を大きく左右する
適当な特徴量をたくさん放り込んだ複雑な非線形モデルよりも、ちゃんと対象の特徴を表わす特徴量をデザインした線形モデルのほうがよかったりすることも多いだろう
特徴量の作成
変数の組み合わせ
変数と変数を加減乗除するなど
基底関数を用いた線形回帰モデルも、ある意味で、手持ちの変数から新たな特徴量を作成しているともいえる
集約して統計量をとる
ログデータなど、同一IDに対してレコードが多数ある一対多(縦持ち(long))のデータについて、同一IDにおける個数のカウントやある値の合計・平均などをとる、などなど、集計した値を特徴量にする
詳しくは構造化データを作るにて
次元削減・教師なし学習による特徴量作成
主成分分析(PCA)、クラスタリングなどにより、手持ちの変数群の本質的特徴をとらえて低次元化する
特徴量の選択
過学習を防ぐためのL1正則化、ランダムフォレストでの特徴量の重要度計算など
モデルの説明可能性などにも影響