itakura-2024-12-06 進捗報告
やったこと
入力の周りの画像情報をクロスアテンションで与える
Block1でクロスアテンションの計算を行う。
https://gyazo.com/1e08c97d2780f548d4e555db9e57660a
テストデータは視野角90°(l=158.04662369)で固定だったため、他の視点画像もそれに統一させた。
移動同変性もmIoUも精度が向上していた。
table:定量評価
Methods meanE_in↓ disR_in↓ meanE_ex↓ disR_ex↓ mIoU↑ mIoU_weighted↑
Zero 0.1950 0.3119 0.1930 0.3102 0.4573 0.7449
PP-Pad(2x3 Conv)(向井) 0.1840 0.2975 0.1821 0.2957 0.4717 0.8067
PP-Pad(2x3 Conv)(葉) 0.1616 0.2763 0.1600 0.2747 0.4923 0.8276
mit-b3 0.1059 0.2431 0.1039 0.2411 0.5769 0.9193 2003.9554 sec.
mit-b3(今回のやつ) 0.0997 0.2381 0.0975 0.2361 0.5772 0.9221
mit-b5 0.0776 0.1750 0.0752 0.1728 0.5917 0.9390 2809.9964 sec.
mit-b5(今回のやつ) 0.0956 0.2165 0.0932 0.2142 0.5777 0.9222 13026.6629 sec.
今後の予定
他のBlockに追加することを考える。
mit-b5でも同様の実験を行ってみる。
PEの改善点を考えたい。
論文で使われている全天球画像のデータセットを見る。
全天球画像全体のセグメンテーションをしている論文を見る。
低解像度(全天球画像全体)の特徴を一段目にとり、その情報を使って、切り出したパッチのセグメンテーションを推定する
→SPEを加えていることと同じかも
逆にPEを加えて悪くなるのかもしれない。
・移動同変性についてやるなら
現在、50ピクセルずらしてテストを行っているが、Transformerでは少ないピクセルでずらしていかないと、移動同変性の効果が見れないかも