データハンドリングと前処理
データハンドリング
データの「分析」そのものではなく、データを「分析ができる状態」にしたり、「効果的・効率的に」分析ができるようにするために、データ自体をどう扱うべきか、という話
データの分析に適した「データの形式(データの持ち方)」を知っておく必要がある
そのうえで、生のデータを「分析できる状態にする」作業を行うが、それに適したツールとその使い方を知っておくとよい
現代的にはETLツールを用いられることが多くなってきている
Rではtidyverse、PythonではPandasなどを用いたデータの処理がよく行われる
Excelを用いた処理もまだまだ現役
データの形式
テーブルデータ
Excelにおけるテーブルデータの扱いの注意点
データの縦持ちと横持ち
Tidy data
データの前処理
テーブルの結合
データクレンジング
ETLツール
Power Queryによるデータクレンジング
Power Queryでのデータの縦持ちと横持ちの変換
Power Queryでのテーブルの結合
データの前処理から分析までを一気に行う
データの前処理から多次元分析・ビジュアライゼーションまでの一貫した処理
オープンデータの前処理~集計の例
データの収集
さまざまなオープンデータ