データの収集・加工 - 「機械学習Ⅰ・Ⅱ（副専攻）」学びの素材集

データの収集・加工

データの収集

定式化した問題に関連する（目的変数・説明変数に関連する）データを集める

さまざまなデータソースがあり得る

以下はビッグデータとして多種多様なデータがあるというイメージ図

https://gyazo.com/a22b6183b98a3b50874dc091cc6c2acb

たとえばログデータやオペレーションデータなど、自社のデータを用いる場合もあれば、ソーシャルメディアデータやウェブサイトデータをスクレイピングやAPI等で入手したり、アンケートや実験、調査等によってデータを「作る」ことが必要なこともある

また、データを使用してよいかを、法や組織内のルール等にしたがって確認する必要があることも多いだろう

顧客やユーザのデータを用いたり、アンケート等でデータを取得する場合、その個人にデータの使用許可を得ておく必要もある

データの加工

そのままでは機械学習で扱えないデータから構造化データを作る必要があることが多い

画像、動画、文章、音声、などなどをテーブルデータ（構造化データ）に落とし込む

すでにテーブルデータであるものも、複数のテーブルに分かれているものは、結合をして使う

「データベース」の授業を履修していればイメージしやすい

さらに、データの前処理としてデータクレンジングが必要なことがほとんど

表記揺れ等の処理

Google Colabでのファイル読み込みについて

データを入手してGoogle Colab上で使うためには、Google Colabでのファイルの読み込みについて知っておく必要あり

調べればいろいろな解説が見つかるので、これらを参考にやってみましょう