EDA
Exploratory Data Analysis
関連
切り口
要約統計量
df.describe() ででるような値を出す
df.describe(exclude='number') でカテゴリデータ
スライシング
地域別・店別・性別・年齢別 など
詳細化
年 → 月 → 日 / 国 → 県 → 市町村
合成
複数のデータから新たな列を作る
尺度変換
価格(数値) から 層別に 高い / 普通 / 安い などのグループへ切って見る
無名数化
値から変化率など単位のない値へ
↓ ページ移す & EDA 視点でどうするかをかく
尺度
名義尺度: 文字列、ラベル
順序尺度: 順序や大小関係はある、間隔や比率に意味はない
間隔尺度: 温度など、値同士の差に意味があるが、0 度は原点ではないし10度は5度の倍ではない
比例尺度: 量的データ
欠損値
欠損値が多いなら列ごと消してしまうのも手
目安: 全データのうち 20% が欠損していると削除を検討
EDA は分析したいので補完しない
外れ値
決め方
四分位数で見て外れ値決める
四分位範囲から1.5倍離れているものを
TODO ここに df を加工するコード
上位下位 n% をクリップ
df.corr() で相関係数見る場合、外れ値除けばバッチリ相関している場合がある
特に少数データ
重複行の削除
df.drop_duplicates()