データの整形
from 機械学習
データの整形
カテゴリーデータ
性別や住んでいる地域など、そのデータのカテゴリを表しているもの。
ラベルエンコーディング
各カテゴリに一意の数字を割り当てる
カウントエンコーディング
そのカテゴリデータが出現した回数を割り当てる。
One-Hotエンコーディング
列の名前をカテゴリ名にし、一致した列には1、それ以外には0をつける。
この場合mカテゴリの個数分だけ列の数が増えることになる。
それぞれのカテゴリを明確に分けることができるがメモリの負担がすごい
数値データ
離散化
連続したデータをある区分に分けること。
対数変換
値の対数をとり、正の値を持つ数値データにおいて、長い裾を短く圧縮し、小さい値を拡大できる。
スケーリング
値の範囲を変換すること。