前処理に関するその他の話題
前処理に関するその他の話題
非構造化データの扱い
画像、動画、文章、音声、などなど…
テーブルデータへの落とし込みに工夫がある
データの結合、特徴量の作成
他のテーブルの結合(さまざまな情報をつなげて活用する)
「データベース」の授業を履修していればイメージしやすい
変数の組み合わせ
変数と変数を加減乗除するなど
集約して統計量をとる
ログデータなど、同一IDに対してレコードが多数ある一対多(縦持ち(long))のデータについて、同一IDにおける個数のカウントやある値の合計・平均などをとる、などなど、集計した値を特徴量にする
さらに進んだ話題
モデルの説明可能性などにも影響
主成分分析(PCA)、t-SNE、クラスタリングなどなど
時系列データの扱い
時系列データは注意が必要
日付・時刻を表す変数の変換もクセがある
モデルと特徴量
決定木がベースの手法は原理的に数値変換は意味をなさない、など