データサイエンスと予測的データ分析と機械学習
#機械学習とは
#機械学習による問題解決
データを扱う力
現代における「データ」の重要性
「エビデンスベースト(evidence-based)」ともよくいわれる
インターネットの普及にともなってデータが質・量ともに爆発的に増加中
「ビッグデータ」の時代
https://gyazo.com/95101a62655b0152b1f193debbc4088a
総務省,「H26情報通信白書」より引用 (2023/4/12アクセス)
(データ量の単位($ 10^3(≒$ 2^{10})毎に接頭辞変化 B→KB→MB→GB→TB→PB→EB→ZB)
(Googleだけで10~15EBほどデータを持っているという試算も…)
(また、この予測を遥かに超え、2020年中には59ZBを超える見込みだった模様)
https://special.nikkeibp.co.jp/atclh/NXT/19/intel0409/number4/
ビッグデータ
https://gyazo.com/a22b6183b98a3b50874dc091cc6c2acb
総務省Webサイト「ビッグデータとは何か」より引用(2022/6/1アクセス)
http://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h24/html/nc121410.html
データサイエンス
「データサイエンス」という語の定着
主に統計学やデータマイニング(機械学習)による「データ」を対象とする(実践に近い)学問
「ビッグデータ」とともに「データサイエンティスト」がバズワード化
データサイエンスを学ぶ大学(学部)も増加中
同様に「人工知能(AI)」のブーム
ディープラーニングの発展(2010年代)
AI、機械学習のコモディティ化
「データから法則性を自動的にみつける」しくみ
音声認識、画像認識、推薦システム、自動運転、AlphaGO、Siri、、、実用化は枚挙に暇なし
最近はChatGPTなどの「大規模言語モデル」が急速に発展、社会現象に
データサイエンスとは(参考:濵田・狩野「データサイエンスの基礎」(2019))
Donoho(2017)は以下6項目の結合として定義
(1) Data gathering, preparation, and exploration(データの収集、前処理、調査や吟味)
(2) Data representation and trandformation(データの表現や変換)
(3) Computing with data(データを用いた計算)
(4) Data modeling(データに対するモデリング)
(5) Data visualization and presentation(データの視覚化とその説明)
(6) Science about data science(データサイエンスに関連する科学)
データサイエンスは総合的な取り組み
数学的知識、計算機技術、対象となるドメイン知識のすべてを必要とする
Drew Conway(2013)によるデータサイエンスのベン図
https://gyazo.com/e75f347db10c0e0fcdb41c5ec71ab562
図の引用:濵田・狩野「データサイエンスの基礎」(2019)
データサイエンスにおけるプロシージャ:PPDACサイクル
https://gyazo.com/569f697663279b4429f839681647704d
データ分析による意思決定
データ分析の最終目的 → 人間の意思決定の支援
KKD(勘・経験・度胸)からエビデンスベースへ
認知バイアスの排除をめざす
データ分析の3局面
https://gyazo.com/ba1a659613d4ecc89556e5c3d3772175
データ活用の深化
データ活用には段階がある
第一段階としての「見える化」から、「予測」や「自動検出」、「自動制御」へと深化しつつある
https://gyazo.com/3419a2d4edd0c77d530439634bcb50fc
総務省, H26情報通信白書, 第3章第4節より引用
機械学習はこれらのデータ活用の各段階、とくに予測を可能とする技術
機械学習による「予測」は、何に使うか?
予測にもさまざまな目的がある
当たっていることが望まれる予測
例)「明日の天気は晴れでしょう」
外れることが望まれる予測
例)「現在の社会保障制度のままだと20年後には財政破綻するだろう」
予測は意思決定とセットで扱う
行動を変える余地があり、その中からどの選択肢を採択するかを決めたい場合
将来の状態にリスクや不確実性がある場合
分類問題の場合、第1種の誤り・第2種の誤りという2種類の誤りのトレードオフがあるため、それにともなうリスク評価をすべき
参考)馬場真哉, 「意思決定分析と予測の活用」, 講談社, 2021.