オープンデータの前処理~集計の例
オープンデータの前処理~集計の例
東京都オープンデータカタログサイトのデータ
https://gyazo.com/c63a2c0442f8e5c0718078eb8098b3b8
使用するデータ
東京都オープンデータカタログサイトから入手した、平成28年の八王子市についての以下のデータを使用してみます
このデータの前処理~集計の例のファイル
この前処理は(初見では)かなり複雑なので、まずはこれを見てみましょう
セキュリティの警告が出ますが、有効化して大丈夫です
https://gyazo.com/721b39155871c77574a5836f5671a7fb
「データ」タブから「クエリと接続」をクリックすると、作成済みのクエリを表示させることができます
https://gyazo.com/f8b425b7e1a6fbd07a41d44d1bc7594a
このデータの前処理
元データはこんな感じ(前処理必須!)
https://gyazo.com/42256c643178b93fd75ede8bda89f9f1
「データ」タブの「クエリと接続」でクエリを開けるので、どのような処理をしているか興味のある人は参考にしてください
https://gyazo.com/d2024dfe67a65cb79a833cffb985ea0e
そこそこのステップ数になっていますが、慣れるとこんなデータもPower Queryだけできれいに前処理できます
https://gyazo.com/5150d7fcbc7d1839f8ec554546ccee01
このファイルで行っていること
Power Queryで行っている処理(一部)
表記を正しく修正する(空白削除、改行文字削除etc.)
データ分析に使えそうな列のみに絞る
新しい列(変数)を作る
人口と人口密度をそれぞれ適当に離散化して「人口レベル」「人口密度レベル」を作成
2つの表を町丁目名称で結合するために両者の表記揺れを修正する
などなど
シートの色
黄色:元のオープンデータ
オレンジ:Power Queryで処理した後のデータ
赤:オレンジのデータから作ったピボットテーブル・グラフ
無色:ピボットテーブルで集計した表をコピーしたもの
データの結合→集計用データ→ピボットテーブル作成
「16」のシートを(元データ) Power Queryで処理して「町丁目別世帯数・人口」を作成している
「公園一覧」のシート(元データ)をPower Queryで処理して「公園一覧(2)」を作成している
その際、「町丁目別世帯数・人口」のデータを結合している
「公園一覧(2)」からピボットテーブル・ピボットグラフを作る
あまり集計しがいのあるデータではありませんが、ピボットテーブルやピボットグラフをいろいろと操作してみてください
前処理後の「公園一覧(2)」のテーブルからピボットテーブルを作成する
https://gyazo.com/1711c206bf0a195ebb3dfe41f044acdf
同じテーブルから別のピボットテーブルやピボットグラフも作ってみる
https://gyazo.com/4a4d09c780a220b8d1d8fa68d284e40d