itakura-2024-10-25 進捗報告
やったこと
・PSPNetのPaddingをTransformerを使って推定
埋め込み次元とTransformerブロック数を変えて、10epochで実験を行ってみた。
emb:埋め込み次元、depth:ブロック数
特徴量全体を使い、Transformerモデルを使用してPadding値を推定した。
設定したパッチの横幅で入力特徴量を割り切れないときは、top,bottom,right,leftにわけ、きりのいいピクセルを取り出した。
topだったらこんな感じ
https://gyazo.com/d87ab3f61375baeb47528ce501bb18c1
table: 定量評価
Methods meanE_in↓ disR_in↓ meanE_ex↓ disR_ex↓ mIoU↑ mIoU_weighted↑
Zero 0.1950 0.3119 0.1930 0.3102 0.4573 0.7449
PP-Pad(2x3 Conv)(向井) 0.1840 0.2975 0.1821 0.2957 0.4717 0.8067
PP-Pad(2x3 Conv)(葉) 0.1616 0.2763 0.1600 0.2747 0.4923 0.8276
emb=256,depth=1 0.1752 0.3049 0.1733 0.3033 0.4692 0.7670
emb=128,depth=2 0.1837 0.2962 0.1820 0.2945 0.4787 0.7903
emb=64, depth=3 0.1776 0.2829 0.1758 0.2811 0.4820 0.7951
emb=32, depth=4 0.1702 0.2938 0.1680 0.2922 0.4851 0.7902
emb=32, depth=4(30epo) 0.1936 0.3079 0.1920 0.3062 0.4502 0.7182
emb=32,depth=1
特徴量全体を使用(W=2) 0.1768 0.2848 0.1745 0.2828 0.4911 0.8254
特徴量全体を使用(W=4) 0.1705 0.2845 0.1683 0.2826 0.4914 0.8354
特徴量全体を使用(W=16) 0.1880 0.2983 0.1856 0.2964 0.4823 0.8104
CrossAttention
0.1769 0.2892 0.1750 0.2875 0.4899 0.8123
mit-b3 0.1210 0.2596 0.1191 0.2577 0.5657 0.9042
mit-b5 0.0776 0.1750 0.0752 0.1728 0.5919 0.9391
2列を使用するよりもmIoUは上がっている。移動同変性は微妙。
今後の予定
特徴量全体を使用(W=16)の結果を見る。
(推定したいPaddingと隣接している)ピクセルと特徴量全体でcross-Attentionを取る。
SegFormerに戻る。cross-Attentionで切り出したパッチ以外の部分の情報を入れる。一定間隔で取り出すリストを作り、SegFormerと同じように埋め込む。