前処理
前処理
正規化: 0 ~ 1 の範囲に変換
MinMaxScaler
一様分布向き、極端な外れ値がある場合に精度が落ちる
標準化: 平均0, 標準偏差を1になるように変換
StandardScaler
各点から平均を引いて標準偏差で割る $ \dfrac{x-\bar{x}}{s} = Z-score
正規分布向き
正規分布でないものはロバストZスコアにするなど
欠損値処
method= に色々ある
カテゴリ変数のエンコード
スムージング
外れ値やノイズの影響への対処
例: 移動平均, ローパスフィルタ
バランス調整
データセット内でクラスのバランスが悪い場合の対処
例:累積 アンダーサンプリング, オーバーサンプリング
外れ値の除去
Zスコアが 2.5 以上なら外れ値とするとか
四分位範囲(IQR) の1.5倍以上離れているものを外れ値とするとか
特徴選択
正則化
L1正則化
L2正則化
特徴量の作成
例:時系列から移動平均作って特徴量にするとか
特徴量の変換
例: 対数にとて正規分布に近い形にする