データ分析のプロセス
データ分析のプロセスモデル
「学びの素材集」の内容とPPDACサイクルとの関係
https://gyazo.com/e4410edf98670bea1b6998985257d223
データハンドリングと前処理の知識とスキルは、Data(データ収集)からAnalysis(データ分析)のプロセスにかけて欠かせないものとなる さらに統計学的な裏付けのあるエビデンスを得るために推測統計の方法を用いたり、機械学習・AIの方法によって予測的な問題解決を行うこともある これらを通して、データをもとにしたConclusion(結論)を導く
データサイエンスの分析サイクルと科学的研究方法
すなわち、データサイエンス(=データ科学)的な取り組みというのは、現代的な(多様で規模の大きい)データを科学的な研究方法論で取り扱って問題解決につなげるもの、といえる
https://gyazo.com/569f697663279b4429f839681647704d
参考)濵田・狩野「データサイエンスの基礎」(2019)
データサイエンスと「問い」
さて、ここまでの説明に出てこなかったProblem(問題設定)は?
問題や課題を明確にするプロセス
問題や課題が明確になって初めてPlan(データ収集の計画)が適切に立てられるため、このProblemのプロセスは(実は分析そのものよりも)非常に重要
科学的方法において、研究上の問い(リサーチクエスチョン)を立てることに等しい
PPDACサイクルが回ってくると、一度得られたConclusionが仮説となり、次のProblemの設定につながる
Problemを起点とする分析を課題駆動型(Issue-driven)分析ということもある
Dataを起点とする分析をデータ駆動型(Data-driven)分析ということもある
Dataが起点の場合、「問題と計画のないまま集めた(適切かどうかわからない)データ」の分析となるので、エビデンスとして十分なものにならないことも多いが、仮説が発見されることで、新たなProblemの設定につながり、次のサイクルのきっかけになることも期待される
(参考)滋賀大学データサイエンス学部「データサイエンスの基本」日本実業出版社(2024)