BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

abst

https://scrapbox.io/files/63241306869e600020502bd6.png

提案手法は複数のカメラ入力の系列 (ビデオ) から道路のオブジェクトをセグメンテーションで表した鳥瞰図を出力するモデルを学習する。nuScenes や waymo open dataset において画像ベースの鳥瞰図作成で SoTA を大きく更新。point cloud ベースと画像ベースの手法のギャップを埋めた。

問題意識・やりたいこと

アイデア・提案手法

https://scrapbox.io/files/632442ff4edebe001dd5dd55.png

モデルアーキテクチャ

BEV Queries は HxWxC の学習可能テンソル

DETR のクラスごとのクエリみたいなもの

spatial cross-attention は複数カメラの入力に効率的にアテンションを張るためのモジュール

Deformable attention を参考に3次元に拡張している

同一フレーム間での特徴量の fusion を担当

temporal self-attention は時系列的な方向にアテンションを張るためのモジュール

直前フレームとの特徴量の fusion を担当

学習

学習可能なクエリ (BEV Queries) と直前フレームに生成された鳥瞰図のヒストリー、現在のフレームの画像を入力にして鳥瞰図特徴量を出力する

鳥瞰図特徴量を入力に3D物体検出と鳥瞰図セグメンテーションを行う

3D物体検出は Deformable DETR ベースで 3D bbox と速度ベクトルを L1 ロスで回帰する

鳥瞰図セグメンテーションは SegFormer をベースに回帰する

データセットから4フレーム連続で入力をピックアップして最初の3フレームはバックワードなしで推論してヒストリーを蓄積し、最後のフレームでフォワード＆バックワードする

実験・結果

https://scrapbox.io/files/63244cb0be6049001d460165.png

nuScenes 3D物体検出において既存のカメラベース手法を大幅に上回り、LiDAR ベースの手法の精度に迫った

https://scrapbox.io/files/63244ce880ac3a00209515ef.png

waymo 3D物体検出においてはカメラベース手法には優越したものの LiDAR との開きは以前大きい

フロントカメラだけでやっているから？

https://scrapbox.io/files/63244cf1d87ad700207925ce.png

セグメンテーションタスクを同時に解くと NDS が微増し、mAP が微減する

直前フレームの情報を使わないと大きく性能を落とす

https://scrapbox.io/files/63244deb896dbe0020fbffde.png

提案した attention は精度がよくメモリ効率も良い

https://scrapbox.io/files/63244e7086ff54001de12fa5.png

定性的にもかなり良い結果

チェリーピックしてるかもだが

memo

すごそう

#detr #transformer #bev