MLのデータサイエンスの手順
MLのデータサイエンスの手順
ML プロジェクトでは、ビジネス ユースケースを定義して成功基準を確立した後、ML モデルを本番環境に提供するプロセスに次のステップが含まれます。
これらの手順は、手動で実行することも、自動パイプラインで実行することもできます。
データ抽出:
ML タスクのさまざまなデータソースから関連データを選択して統合します。
データ分析:
探索的データ分析(EDA)を実行して、ML モデルのビルドに使用できるデータを理解します。このプロセスは次のようになります。
モデルで想定されるデータスキーマと特性を理解する。
モデルに必要なデータ準備と特徴量エンジニアリングを特定する。
データの準備:
ML タスク用にデータを準備します。この準備では、データ クリーニングを行い、データをトレーニング、検証、テストセットに分割します。また、ターゲット タスクを解決するモデルにデータ変換と特徴量エンジニアリングを適用します。この手順の出力は、準備された形式のデータ分割です。
モデルのトレーニング:
データ サイエンティストは、準備したデータで異なるアルゴリズムを実装し、さまざまな ML モデルをトレーニングします。さらに、ハイパーパラメータ調整に実装されたアルゴリズムにより、最高性能の ML モデルを入手します。この手順の出力は、トレーニングされたモデルです。
モデルの評価:
この手順の出力は、モデルの品質を評価するための一連の指標です。
モデルの検証:
モデルがデプロイに適していること、つまり、予測性能が特定のベースラインより優れていることを確認します。
モデルの提供:
検証済みのモデルがターゲット環境にデプロイされ、予測サービスが提供されます。このデプロイは次のいずれかになります。
オンライン予測を提供する REST API を使用したマイクロサービス。
エッジまたはモバイル デバイスへの組み込みモデル。
バッチ予測システムの一部。
モデルのモニタリング:
モデルの予測性能をモニタリングし、ML プロセスで新しいイテレーションを必要に応じて呼び出します。
これらの手順の自動化レベルによって、ML プロセスの成熟度が決まります。
これは、新しいデータの場合や新しい実装の場合での新しいモデルのトレーニング速度を反映します。