前処理に関するその他の話題
#データの理解と前処理
前処理に関するその他の話題
現実的な問題では以下のような処理をもってテーブルデータ(構造化データ)を作る必要があることが多い
以下、詳しくは構造化データを作るを参照
非構造化データの扱い
画像、動画、文章、音声、などなど…
テーブルデータへの落とし込みに工夫がある
データの結合、特徴量の作成
他のテーブルの結合(さまざまな情報をつなげて活用する)
「データベース」の授業を履修していればイメージしやすい
変数の組み合わせ
変数と変数を加減乗除するなど
集約して統計量をとる
ログデータなど、同一IDに対してレコードが多数ある一対多(縦持ち(long))のデータについて、同一IDにおける個数のカウントやある値の合計・平均などをとる、などなど、集計した値を特徴量にする
さらに進んだ話題
特徴量の選択(→特徴量エンジニアリング)
過学習を防ぐためのL1正則化など
モデルの説明可能性などにも影響
次元削減・教師なし学習による特徴量作成
主成分分析(PCA)、t-SNE、クラスタリングなどなど
時系列データの扱い
時系列データは注意が必要
日付・時刻を表す変数の変換もクセがある
モデルと特徴量
モデル(アルゴリズム)によって、必要な前処理もかなり違う
決定木とニューラルネットワークでは必要な処理が異なる
決定木がベースの手法は原理的に数値変換は意味をなさない、など