機械学習モデル - 佐藤まみの公開メモ

機械学習モデル

o1 pro.icon

3. 機械学習（AI）アプローチ

3.1. どんな方式？

ディープラーニングやランダムフォレスト、XGBoostなどを使い、大量のデータから**自動的にルール（パターン）**を学習する方法です。

画像や文章を解析して、「困っている人のサイン」を見つけるといったことも可能。

3.2. 作成プロセス

大量の多様なデータを集める

例：申請履歴だけでなく、SNS投稿、コールセンターの相談記録、ネット検索ログなど。

データの前処理

テキストなら「単語分割」や「ベクトル化」、画像なら「ピクセル情報の正規化」などを行う。

機械学習モデルを学習させる

教師あり学習の場合：過去データ（「誰が支援を受けた／受けなかった」）を教師データとして訓練。

教師なし学習の場合：似た特徴を持つグループを見つける（クラスター化）など。

モデルの評価・チューニング

精度を測り、パラメータ（学習率・木の深さなど）を調整する。

3.3. アルゴリズムの材料となりうる情報

**従来の属性情報（所得、家族構成など）**に加え、

SNS投稿のテキスト

行政への問い合わせ履歴

健康診断の記録（プライバシー許可がある場合）

就職支援センターの面談記録

地理情報（どのエリアに住んでいるか）

つまり、多岐にわたるデータを可能な限り集めることで、「潜在的に支援が必要な人」を逃さずに検出することが期待できる。

3.4. メリット & デメリット

メリット

膨大なデータを使えば、従来の統計モデルでは捉えきれない複雑なパターンも学習。

テキストや画像のような「非数値データ」も活用できる。

デメリット

なぜその判定結果になったのかがブラックボックスになりやすい。

データ量が足りないと精度が低い、偏ったデータだと差別的な結果を生む可能性。

（中略）

3. 機械学習（AI）はどんなデータをもとに作るの？

3.1. さまざまな形式のデータを使える

(A) 数値・表形式データ

統計モデルと同じような表形式データでもOK

ただし、機械学習の場合は数百～数千以上の特徴量があっても扱いやすい（ランダムフォレスト、XGBoostなど）

相互作用や非線形関係（「Aが大きく Bが小さいときに限ってリスク急上昇」など）を自動的に学習しやすい

(B) テキストデータ

SNS投稿、文章の相談ログ、商品レビュー、チャット履歴など

自然言語処理（NLP）技術（BERT, Word2Vec, Doc2Vec など）を使って「単語や文書の特徴ベクトル」を抽出し、機械学習モデルに入力

たとえば「SNS投稿から困っている人のサインを検知する」「レビューから評判を分析する」など

ディープラーニング（CNNなど）を使って、画像や音声の特徴を自動抽出

写真の中に写っている物体を判定（犬・猫・車など）

音声から感情分析やキーワード抽出

動画解析で、動きやシーンを捉える応用もある

(D) 時系列ログや各種センサーデータ

IoT機器やスマホのセンサー記録、Webアクセスログなど大量かつ多次元のデータ

LSTMやTransformerなどの時系列に強いモデルが使われることも多い

「いつ・どこで・どんな行動をしたか」を細かく学習する

3.2. 作成プロセスの例：教師あり学習

データ収集

例：SNS投稿のテキストと「その投稿者が支援を要したか／要さなかったか」の事例を大量に集める

データの前処理

テキストを単語や文に分割し、ベクトル化

画像なら解像度を合わせたりラベリング（何が写っているか）

学習

ディープラーニングやランダムフォレストなどで「入力（テキスト・画像）→出力（支援必要／不要等）」の対応を学習

評価・チューニング

テスト用のデータで精度を測り、ハイパーパラメータを調整

実運用

新しい投稿があればモデルにかけて、自動で判定する

3.3. ポイント

大量のデータが必要（質と量がモノを言う）

非線形な複雑パターンを捉えられる

一方で、「なぜそう予測したか」説明しづらい（ブラックボックス化）

データが偏っていると、偏った結果を出してしまう（バイアス問題）

出典：o1 pro.iconhttps://chatgpt.com/c/67736d52-f2cc-8002-8f6b-def14f4bae8a