DiffusionDrive
最近、拡散モデルは、マルチモードアクション分布をモデル化できるロボットポリシー学習の強力な生成手法として登場しました。エンドツーエンドの自動運転にその機能を活用することは有望な方向性です。ただし、ロボット拡散ポリシーの多数のノイズ除去ステップと、交通シーンのより動的でオープンワールドな性質により、リアルタイムの速度で多様な運転アクションを生成することが非常に困難になっています。これらの課題に対処するために、事前のマルチモードアンカーを組み込み、拡散スケジュールを切り捨てる新しい切り捨て拡散ポリシーを提案します。これにより、モデルはアンカーガウス分布からマルチモード運転アクション分布へのノイズ除去を学習できます。さらに、条件付きシーンコンテキストとの相互作用を強化するために、効率的なカスケード拡散デコーダーを設計します。提案モデル DiffusionDrive は、バニラ拡散ポリシーと比較してノイズ除去ステップを 10 倍削減し、わずか 2 ステップで優れた多様性と品質を実現します。計画指向の NAVSIM データセットでは、調整された ResNet-34 バックボーンを使用して、DiffusionDrive は余計な機能なしで 88.1 PDMS を達成し、NVIDIA 4090 で 45 FPS のリアルタイム速度で実行しながら、新記録を樹立しました。困難なシナリオでの定性的な結果により、DiffusionDrive がさまざまな妥当な運転動作を堅牢に生成できることがさらに確認されました。
【所感】
パッとカタログスペックを聞くとかなり速くて性能も良いように見える。