itakura-2024-10-16 進捗報告
やったこと
・PSPNetのPaddingをTransformerを使って推定
埋め込み次元とTransformerブロック数を変えて、10epochで実験を行ってみた。
emb:埋め込み次元、depth:ブロック数
特徴量全体を使い、Transformerモデルを使用してPadding値を推定した。
設定したパッチの横幅で入力特徴量を割り切れないときは、top,bottom,right,leftにわけ、きりのいいピクセルを取り出した。
topだったらこんな感じ
https://gyazo.com/d87ab3f61375baeb47528ce501bb18c1
table: 定量評価
Methods meanE_in↓ disR_in↓ meanE_ex↓ disR_ex↓ mIoU↑ mIoU_weighted↑
Zero 0.1950 0.3119 0.1930 0.3102 0.4573 0.7449
PP-Pad(2x3 Conv)(向井) 0.1840 0.2975 0.1821 0.2957 0.4717 0.8067
PP-Pad(2x3 Conv)(葉) 0.1616 0.2763 0.1600 0.2747 0.4923 0.8276
emb=256,depth=1 0.1752 0.3049 0.1733 0.3033 0.4692 0.7670
emb=128,depth=2 0.1837 0.2962 0.1820 0.2945 0.4787 0.7903
emb=64, depth=3 0.1776 0.2829 0.1758 0.2811 0.4820 0.7951
emb=32, depth=4 0.1702 0.2938 0.1680 0.2922 0.4851 0.7902
emb=32, depth=4(30epo) 0.1936 0.3079 0.1920 0.3062 0.4502 0.7182
emb=32,depth=1
特徴量全体を使用(W=2) 0.1768 0.2848 0.1745 0.2828 0.4911 0.8254
特徴量全体を使用(W=4) 0.1705 0.2845 0.1683 0.2826 0.4914 0.8354
特徴量全体を使用(W=16) 0.1880 0.2983 0.1856 0.2964 0.4823 0.8104
SegFormer 0.1169 0.2518 0.1150 0.2498 0.5685 0.9092
2列を使用するよりもmIoUは上がっている。移動同変性は微妙。
今後の予定
特徴量全体を使用(W=16)の結果を見る。
(推定したいPaddingと隣接している)ピクセルと特徴量全体でcross-Attentionを取る。
ロータリーPEを使ってみる。