データの収集・加工
#データの理解と前処理
データの収集
機械学習プロジェクトの流れにおいて、解きたい問題を機械学習の問題に落とし込む(問題の定式化)ことを検討したあとは、実際に扱うデータを収集する必要がある
定式化した問題に関連する(目的変数・説明変数に関連する)データを集める
さまざまなデータソースがあり得る
以下はビッグデータとして多種多様なデータがあるというイメージ図
https://gyazo.com/a22b6183b98a3b50874dc091cc6c2acb
総務省Webサイト「ビッグデータとは何か」より引用(2022/6/1アクセス)
たとえばログデータやオペレーションデータなど、自社のデータを用いる場合もあれば、ソーシャルメディアデータやウェブサイトデータをスクレイピングやAPI等で入手したり、アンケートや実験、調査等によってデータを「作る」ことが必要なこともある
また、データを使用してよいかを、法や組織内のルール等にしたがって確認する必要があることも多いだろう
顧客やユーザのデータを用いたり、アンケート等でデータを取得する場合、その個人にデータの使用許可を得ておく必要もある
データの加工
そのままでは機械学習で扱えないデータから構造化データを作る必要があることが多い
画像、動画、文章、音声、などなどをテーブルデータ(構造化データ)に落とし込む
すでにテーブルデータであるものも、複数のテーブルに分かれているものは、結合をして使う
「データベース」の授業を履修していればイメージしやすい
さらに、データの前処理としてデータクレンジングが必要なことがほとんど
表記揺れ等の処理
欠損値の処理
Google Colabでのファイル読み込みについて
データを入手してGoogle Colab上で使うためには、Google Colabでのファイルの読み込みについて知っておく必要あり
調べればいろいろな解説が見つかるので、これらを参考にやってみましょう
Google Colaboratoryでのファイル読み込み方法 | うしじのブログ
google Colaboratoryでファイルを読み込む方法