データの前処理 - mrsekut-p

データの前処理

/mrsekut-book-4297141388/061 (1-5 前処理の順番)

データの抽出

データの集約・結合・整形

クレンジング処理

前処理の構造

/mrsekut-book-4297141388/059 (1-4 前処理の種類)

データの構造を対象とした前処理

抽出、集約、結合、分割などでテーブルの構造を変える

不要なデータを除去する、整形する

異なるシステムのデータを統合

データの選択

分析に必要な形式にデータを再構成

データの内容を対象とした前処理

テーブルの構造は変えずに値を変換する

計算して新たな列を作る

関連フィールドを変換する

外れ値、欠損値の修正など

フィールド値の異なる型の統一

欠損値、不正な値、または極端な値の定義

小さい単位で処理する

例えば、4つのcsvから、最終的な一つのアウトプットを出したいとき

2方針考えられる

個々のファイルで前処理をした後に、JOINする

いったん全てをJOINしてから前処理をする

実際に両方試してみて、圧倒的に前者の方が良いと感じたmrsekut.icon

個々のファイルで前処理した後に、mergeして、再度前処理をする

ノイズを減らす作業を小さい単位で実行する

小さいと一望することが可能になる

明らかな欠損値の存在に気づきやすい

また、tableの結合はそもそも複雑

理解が浅いとJOINのタイミングで盛大に間違う

/mrsekut-book-4802612907/113

libraryの提供する関数の仕様を確認する

/mrsekut-book-4802612907/115

ExcelのSTDEV()という関数は、標準偏差ではなく不偏標準偏差を求める関数らしい

こういうミスめっちゃありそうmrsekut.icon

変数の分類

quantiative variable

数量を表す変数

qualitative variable

カテゴリ変数_

categorical variable

数量として扱えない変数

e.g. 性別

学習をするときは、学習データ、教師データに前処理や規格化などを行ってからモデルに入れる

なので、推論器が完成し、それに実際のデータを入れる前にも同様の前処理を行う必要がある

ただし、訓練時のみに施す前処理にData Argumentationというのがあったりする

画像の前処理

画像のリサイズ

色情報の規格化

PyTorchならtransformsとかを使う

『Pythonによるデータ分析入門第3版』 7章

/mrsekut-book-4297141388/054 (1-3 Awesomeな前処理とは)