データの収集・加工
データの収集
定式化した問題に関連する(目的変数・説明変数に関連する)データを集める
さまざまなデータソースがあり得る
以下はビッグデータとして多種多様なデータがあるというイメージ図
https://gyazo.com/a22b6183b98a3b50874dc091cc6c2acb
たとえばログデータやオペレーションデータなど、自社のデータを用いる場合もあれば、ソーシャルメディアデータやウェブサイトデータをスクレイピングやAPI等で入手したり、アンケートや実験、調査等によってデータを「作る」ことが必要なこともある
また、データを使用してよいかを、法や組織内のルール等にしたがって確認する必要があることも多いだろう
顧客やユーザのデータを用いたり、アンケート等でデータを取得する場合、その個人にデータの使用許可を得ておく必要もある
データの加工
すでにテーブルデータであるものも、複数のテーブルに分かれているものは、結合をして使う
「データベース」の授業を履修していればイメージしやすい
さらに、データの前処理としてデータクレンジングが必要なことがほとんど
表記揺れ等の処理
Google Colabでのファイル読み込みについて
データを入手してGoogle Colab上で使うためには、Google Colabでのファイルの読み込みについて知っておく必要あり
調べればいろいろな解説が見つかるので、これらを参考にやってみましょう