itakura-2024-12-13 進捗報告

やったこと

全天球画像のセグメンテーションの論文をサラッと見てみた。

・使われているデータセット

屋内シーン向けの論文の方がが多く、その中でもよく使われていたのが、Stanford2D3DS dataset というやつ。

Structure3Dというのも使われていた。

屋外シーンと屋内シーンを含んだデータセットはMatterport3D。

今回新たにmit-b4とmit-b5でクロスアテンションを加えた。

mit-b4では大幅な精度向上ができたが、mit-b5は少し下がってしまった。

table:定量評価

Methods meanE_in↓ disR_in↓ meanE_ex↓ disR_ex↓ mIoU↑ mIoU_weighted↑

Zero 0.1950 0.3119 0.1930 0.3102 0.4573 0.7449

PP-Pad(2x3 Conv)(向井) 0.1840 0.2975 0.1821 0.2957 0.4717 0.8067

PP-Pad(2x3 Conv)(葉) 0.1616 0.2763 0.1600 0.2747 0.4923 0.8276

mit-b3 0.1059 0.2431 0.1039 0.2411 0.5769 0.9193 2003.9554 sec.

mit-b3(今回のやつ) 0.0997 0.2381 0.0975 0.2361 0.5772 0.9221

mit-b4 0.1702 0.2870 0.1683 0.2854 0.4722 0.8117

mit-b4(今回のやつ) 0.1123 0.2517 0.1099 0.2496 0.5087 0.9103

mit-b5 0.0776 0.1750 0.0752 0.1728 0.5917 0.9390 2809.9964 sec.

mit-b5(今回のやつ) 0.0956 0.2165 0.0932 0.2142 0.5777 0.9222 13026.6629 sec.

今後の予定

他のBlockに追加することを考える。

mit-b5でも同様の実験を行ってみる。

PEの改善点を考えたい。

論文で使われている全天球画像のデータセットを見る。

全天球画像全体のセグメンテーションをしている論文を見る。

低解像度(全天球画像全体)の特徴を一段目にとり、その情報を使って、切り出したパッチのセグメンテーションを推定する

→SPEを加えていることと同じかも

逆にPEを加えて悪くなるのかもしれない。

・移動同変性についてやるなら

現在、50ピクセルずらしてテストを行っているが、Transformerでは少ないピクセルでずらしていかないと、移動同変性の効果が見れないかも