Imagine-2-Drive
画像ベースの状態空間による自動運転では、将来のイベントを正確に予測し、多様な行動モードをモデル化することが、安全性と効果的な意思決定に不可欠です。世界モデルベースの強化学習 (WMRL) アプローチは、現在の状態とアクションから将来の状態をシミュレートすることで、有望なソリューションを提供します。ただし、世界モデルの有用性は、典型的な RL ポリシーが決定論的または単一のガウス分布に制限されることによって制限されることがよくあります。可能なアクションの全範囲をキャプチャできないため、複雑で動的な環境への適応性が低下します。この研究では、正確な未来予測のための高忠実度世界モデルである VISTAPlan と、軌道予測のためのマルチモーダル行動をモデル化する拡散ベースのポリシーである Diffusion Policy Actor (DPA) の 2 つのコンポーネントで構成されるフレームワーク Imagine-2-Drive を紹介します。VISTAPlan を使用して DPA からの軌道をシミュレートおよび評価し、ノイズ除去拡散ポリシー最適化 (DDPO) を使用して、軌道全体の報酬の累積合計を最大化するように DPA をトレーニングします。 CARLA の各コンポーネントとフレームワーク全体の利点を、標準的な運転メトリクスを使用して分析します。VISTAPlan と DPA という 2 つの新機能により、ルート完了と成功率で、標準的な運転メトリクスの最先端の (SOTA) 世界モデルをそれぞれ 15% と 20% 大幅に上回りました。