データ分析のプロセス
データ分析のプロセスモデル
PPDACサイクル
CRISP-DM
「学びの素材集」の内容とPPDACサイクルとの関係
https://gyazo.com/e4410edf98670bea1b6998985257d223
このサイト(学びの素材集)の内容とPPDACサイクルの対応づけ
データを扱うときの統計学的思考にある内容、たとえば母集団とサンプリングやデータに潜むバイアスといった話は、Plan(データ収集の計画)やData(データ収集)のプロセスにおいて重要である
データハンドリングと前処理の知識とスキルは、Data(データ収集)からAnalysis(データ分析)のプロセスにかけて欠かせないものとなる
Analysis(データ分析)のプロセスにおいては、データの性質と分析の関係をおさえつつ、データ可視化(ビジュアライゼーション)の技術を効果的に活用して、データの分布と数値要約やデータの相関で示すようなポイントをおさえながらまずは記述統計レベルでの探索的データ分析を行うことが多い
さらに統計学的な裏付けのあるエビデンスを得るために推測統計の方法を用いたり、機械学習・AIの方法によって予測的な問題解決を行うこともある
これらを通して、データをもとにしたConclusion(結論)を導く
このConclusionを誰か(意思決定者など)に伝える場合にも、適切なデータ可視化(ビジュアライゼーション)が大きな役割を果たし、ストーリーテリングをうまく活用することが重要となる
データサイエンスの分析サイクルと科学的研究方法
PPDACサイクルに代表されるデータサイエンスの分析フローの考え方は、いわゆるそもそもの「科学的な方法」と大きく離れたものではない
すなわち、データサイエンス(=データ科学)的な取り組みというのは、現代的な(多様で規模の大きい)データを科学的な研究方法論で取り扱って問題解決につなげるもの、といえる
https://gyazo.com/569f697663279b4429f839681647704d
参考)濵田・狩野「データサイエンスの基礎」(2019)
データサイエンスと「問い」
さて、ここまでの説明に出てこなかったProblem(問題設定)は?
問題や課題を明確にするプロセス
問題や課題が明確になって初めてPlan(データ収集の計画)が適切に立てられるため、このProblemのプロセスは(実は分析そのものよりも)非常に重要
科学的方法において、研究上の問い(リサーチクエスチョン)を立てることに等しい
データサイエンスと「問い」
PPDACサイクルが回ってくると、一度得られたConclusionが仮説となり、次のProblemの設定につながる
Problemを起点とする分析を課題駆動型(Issue-driven)分析ということもある
Dataを起点とする分析をデータ駆動型(Data-driven)分析ということもある
Dataが起点の場合、「問題と計画のないまま集めた(適切かどうかわからない)データ」の分析となるので、エビデンスとして十分なものにならないことも多いが、仮説が発見されることで、新たなProblemの設定につながり、次のサイクルのきっかけになることも期待される
(参考)滋賀大学データサイエンス学部「データサイエンスの基本」日本実業出版社(2024)