データの前処理
#WIP
/mrsekut-book-4297141388/061 (1-5 前処理の順番)
データの抽出
データの集約・結合・整形
クレンジング処理
前処理の構造
/mrsekut-book-4297141388/059 (1-4 前処理の種類)
データの構造を対象とした前処理
抽出、集約、結合、分割などでテーブルの構造を変える
不要なデータを除去する、整形する
異なるシステムのデータを統合
データの選択
分析に必要な形式にデータを再構成
データの内容を対象とした前処理
テーブルの構造は変えずに値を変換する
計算して新たな列を作る
関連フィールドを変換する
外れ値、欠損値の修正など
フィールド値の異なる型の統一
欠損値、不正な値、または極端な値の定義
小さい単位で処理する
例えば、4つのcsvから、最終的な一つのアウトプットを出したいとき
2方針考えられる
個々のファイルで前処理をした後に、JOINする
いったん全てをJOINしてから前処理をする
実際に両方試してみて、圧倒的に前者の方が良いと感じたmrsekut.icon
個々のファイルで前処理した後に、mergeして、再度前処理をする
ノイズを減らす作業を小さい単位で実行する
小さいと一望することが可能になる
明らかな欠損値の存在に気づきやすい
また、tableの結合はそもそも複雑
理解が浅いとJOINのタイミングで盛大に間違う
/mrsekut-book-4802612907/113
libraryの提供する関数の仕様を確認する
/mrsekut-book-4802612907/115
ExcelのSTDEV()という関数は、標準偏差ではなく不偏標準偏差を求める関数らしい
こういうミスめっちゃありそうmrsekut.icon
変数の分類
量的変数
quantiative variable
数量を表す変数
質的変数
qualitative variable
カテゴリ変数_
categorical variable
数量として扱えない変数
e.g. 性別
学習をするときは、学習データ、教師データに前処理や規格化などを行ってからモデルに入れる
なので、推論器が完成し、それに実際のデータを入れる前にも同様の前処理を行う必要がある
ただし、訓練時のみに施す前処理にData Argumentationというのがあったりする
画像の前処理
画像のリサイズ
色情報の規格化
PyTorchならtransformsとかを使う
『Pythonによるデータ分析入門 第3版』 7章
/mrsekut-book-4297141388/054 (1-3 Awesomeな前処理とは)