特徴量エンジニアリング
機械学習のための特徴量エンジニアリング
1章 機械学習パイプライン
データ、タスク、モデル、特徴量
2章 数値データの取り扱い
カウントデータの取り扱い
離散化
対数変換
べき変換:対数変換の一般化
Min-Maxスケーリング
分散スケーリング
交互作用特徴量
特徴選択
3章 テキストデータの取り扱い
Bag-of-X
特徴選択のための単語除去
言葉の最小単位
4章 特徴量スケーリングによる効果
特徴量スケーリングによる効果:Bag-of-WordsのTF-IDFによる重み付け
5章 カテゴリ変数の取り扱い
カテゴリ変数のエンコーディング
膨大なカテゴリ数を持つカテゴリ変数の取り扱い
特徴量ハッシング
ビンカウンティング
6章 次元削減
PCA
7章 非線型特徴量の作成:k-meansによるスタッキング
非線型次元削減は非線型埋め込みや多様体学習と呼ばれる
8章 特徴量作成の自動化:画像特徴量の抽出と深層学習
SIFTおよびHOG
9章 学術論文レコメンドアルゴリズムの構築
前処理大全
1章 前処理とは
2章 データ構造を対象とした前処理
3章 集約
4章 結合
5章 分割
6章 生成
7章 展開
8章 数値型
9章 カテゴリ型
10章 日時型
11章 文字型
12章 位置情報型
13章 演習問題