データの前処理から多次元分析・ビジュアライゼーションまでの一貫した処理
データの前処理から多次元分析・ビジュアライゼーションまでの一貫した処理
データの収集から分析までの一連の流れを意識する
(1) データの収集・前処理フェーズ
分析したい問題に関するデータを収集する
必要に応じて以下のような前処理を行い、分析用の多次元データを準備する
文字列の修正などのデータクレンジングを行う
横持ちになっているデータを縦持ちに変換する
テーブルを結合して分析の切り口(ディメンション)を増やす
(2) 多次元データによる分析フェーズ
こうしてできた多次元データに対して、クロス集計やビジュアライゼーションを行う
それによって探索的データ分析を行ったうえで、適切な統計的手法を用いたより深い分析を行う
それぞれのフェーズにおいて適切なツールを使う
(1)のフェーズ、(2)のフェーズにそれぞれ適切なツールを用いて一気通貫に行うのが現代的
たとえば以下のような組合せで処理されることが多いだろう
Excelメインの場合・・・
(1)はPower Query、(2)はピボットテーブルやピボットグラフで処理
Tableauメインの場合・・・
(1)はTableau Prep、(2)はTableauで処理
Rの場合・・・
(1)はtidyverse、(2)はggplot2で処理
Pythonの場合・・・
(1)はPandas、(2)はmatplotlibやseabornで処理
もちろん、このような組合せにとらわれず、(1)の前処理はPower Queryで行い、(2)の集計・分析はTableauで行う、ということでもまずはよいので、なにか一つは得意な方法を身につけておくとよいでしょう