BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
arxiv
github
abst
https://scrapbox.io/files/63241306869e600020502bd6.png
提案手法は複数のカメラ入力の系列 (ビデオ) から道路のオブジェクトをセグメンテーションで表した鳥瞰図を出力するモデルを学習する。nuScenes や waymo open dataset において画像ベースの鳥瞰図作成で SoTA を大きく更新。point cloud ベースと画像ベースの手法のギャップを埋めた。
問題意識・やりたいこと
アイデア・提案手法
https://scrapbox.io/files/632442ff4edebe001dd5dd55.png
モデルアーキテクチャ
BEV Queries は HxWxC の学習可能テンソル
DETR のクラスごとのクエリみたいなもの
spatial cross-attention は複数カメラの入力に効率的にアテンションを張るためのモジュール
Deformable attention を参考に3次元に拡張している
同一フレーム間での特徴量の fusion を担当
temporal self-attention は時系列的な方向にアテンションを張るためのモジュール
直前フレームとの特徴量の fusion を担当
学習
学習可能なクエリ (BEV Queries) と直前フレームに生成された鳥瞰図のヒストリー、現在のフレームの画像を入力にして鳥瞰図特徴量を出力する
鳥瞰図特徴量を入力に3D物体検出と鳥瞰図セグメンテーションを行う
3D物体検出は Deformable DETR ベースで 3D bbox と速度ベクトルを L1 ロスで回帰する
鳥瞰図セグメンテーションは SegFormer をベースに回帰する
データセットから4フレーム連続で入力をピックアップして最初の3フレームはバックワードなしで推論してヒストリーを蓄積し、最後のフレームでフォワード&バックワードする
実験・結果
https://scrapbox.io/files/63244cb0be6049001d460165.png
nuScenes 3D物体検出において既存のカメラベース手法を大幅に上回り、LiDAR ベースの手法の精度に迫った
https://scrapbox.io/files/63244ce880ac3a00209515ef.png
waymo 3D物体検出においてはカメラベース手法には優越したものの LiDAR との開きは以前大きい
フロントカメラだけでやっているから?
https://scrapbox.io/files/63244cf1d87ad700207925ce.png
セグメンテーションタスクを同時に解くと NDS が微増し、mAP が微減する
直前フレームの情報を使わないと大きく性能を落とす
https://scrapbox.io/files/63244deb896dbe0020fbffde.png
提案した attention は精度がよくメモリ効率も良い
https://scrapbox.io/files/63244e7086ff54001de12fa5.png
定性的にもかなり良い結果
チェリーピックしてるかもだが
memo
すごそう
#detr #transformer #bev