前処理に関するその他の話題 - 「機械学習Ⅰ・Ⅱ（副専攻）」学びの素材集

前処理に関するその他の話題

前処理に関するその他の話題

現実的な問題では以下のような処理をもってテーブルデータ（構造化データ）を作る必要があることが多い

以下、詳しくは構造化データを作るを参照

非構造化データの扱い

画像、動画、文章、音声、などなど…

テーブルデータへの落とし込みに工夫がある

データの結合、特徴量の作成

他のテーブルの結合（さまざまな情報をつなげて活用する）

「データベース」の授業を履修していればイメージしやすい

変数の組み合わせ

変数と変数を加減乗除するなど

集約して統計量をとる

ログデータなど、同一IDに対してレコードが多数ある一対多（縦持ち（long））のデータについて、同一IDにおける個数のカウントやある値の合計・平均などをとる、などなど、集計した値を特徴量にする

さらに進んだ話題

過学習を防ぐためのL1正則化など

モデルの説明可能性などにも影響

主成分分析（PCA）、t-SNE、クラスタリングなどなど

時系列データの扱い

時系列データは注意が必要

日付・時刻を表す変数の変換もクセがある

モデルと特徴量

モデル（アルゴリズム）によって、必要な前処理もかなり違う

決定木がベースの手法は原理的に数値変換は意味をなさない、など