データの前処理から多次元分析・ビジュアライゼーションまでの一貫した処理
from データハンドリングと前処理, 多次元分析とビジュアライゼーション
データの前処理から多次元分析・ビジュアライゼーションまでの一貫した処理
データの収集から分析までの一連の流れを意識する
(1) データの収集・前処理フェーズ
分析したい問題に関するデータを収集する
必要に応じて以下のような前処理を行い、分析用の多次元データを準備する
文字列の修正などのデータクレンジングを行う
横持ちになっているデータを縦持ちに変換する
テーブルを結合して分析の切り口(ディメンション)を増やす
(2) 多次元データによる分析フェーズ
こうしてできた多次元データに対して、クロス集計やビジュアライゼーションを行う
それによって探索的データ分析を行ったうえで、適切な統計的手法を用いたより深い分析を行う
それぞれのフェーズにおいて適切なツールを使う
(1)のフェーズ、(2)のフェーズにそれぞれ適切なツールを用いて一気通貫に行うのが現代的
たとえば以下のような組合せで処理されることが多いだろう
Excelメインの場合・・・
(1)はPower Query、(2)はピボットテーブルやピボットグラフで処理
Tableauメインの場合・・・
(1)はTableau Prep、(2)はTableauで処理
Rの場合・・・
(1)はtidyverse、(2)はggplot2で処理
Pythonの場合・・・
(1)はPandas、(2)はmatplotlibやseabornで処理
もちろん、このような組合せにとらわれず、(1)の前処理はPower Queryで行い、(2)の集計・分析はTableauで行う、ということでもまずはよいので、なにか一つは得意な方法を身につけておくとよいでしょう