itakura-2024-12-13 進捗報告
やったこと
全天球画像のセグメンテーションの論文をサラッと見てみた。
・使われているデータセット
屋内シーン向けの論文の方がが多く、その中でもよく使われていたのが、Stanford2D3DS dataset というやつ。
Structure3Dというのも使われていた。
屋外シーンと屋内シーンを含んだデータセットはMatterport3D。
今回新たにmit-b4とmit-b5でクロスアテンションを加えた。
mit-b4では大幅な精度向上ができたが、mit-b5は少し下がってしまった。
table:定量評価
Methods meanE_in↓ disR_in↓ meanE_ex↓ disR_ex↓ mIoU↑ mIoU_weighted↑
Zero 0.1950 0.3119 0.1930 0.3102 0.4573 0.7449
PP-Pad(2x3 Conv)(向井) 0.1840 0.2975 0.1821 0.2957 0.4717 0.8067
PP-Pad(2x3 Conv)(葉) 0.1616 0.2763 0.1600 0.2747 0.4923 0.8276
mit-b3 0.1059 0.2431 0.1039 0.2411 0.5769 0.9193 2003.9554 sec.
mit-b3(今回のやつ) 0.0997 0.2381 0.0975 0.2361 0.5772 0.9221
mit-b4 0.1702 0.2870 0.1683 0.2854 0.4722 0.8117
mit-b4(今回のやつ) 0.1123 0.2517 0.1099 0.2496 0.5087 0.9103
mit-b5 0.0776 0.1750 0.0752 0.1728 0.5917 0.9390 2809.9964 sec.
mit-b5(今回のやつ) 0.0956 0.2165 0.0932 0.2142 0.5777 0.9222 13026.6629 sec.
今後の予定
他のBlockに追加することを考える。
mit-b5でも同様の実験を行ってみる。
PEの改善点を考えたい。
論文で使われている全天球画像のデータセットを見る。
全天球画像全体のセグメンテーションをしている論文を見る。
低解像度(全天球画像全体)の特徴を一段目にとり、その情報を使って、切り出したパッチのセグメンテーションを推定する
→SPEを加えていることと同じかも
逆にPEを加えて悪くなるのかもしれない。
・移動同変性についてやるなら
現在、50ピクセルずらしてテストを行っているが、Transformerでは少ないピクセルでずらしていかないと、移動同変性の効果が見れないかも