MultiRankIt
RAL23
LTRPO taskを扱うモデル
https://scrapbox.io/files/64e818e3bf5678001cd67450.png
入力
Instruction: DSRへの家事をおこなうためのopen-vocabularyなinstruction
Indoor images:
targetのbboxが予測のための教師データとして必要、関連性に基づきenvironmentには$ N個のbounding boxが与えられる。
出力
Ranked List
$ N番目まで、Instructionが指す対象物体の候補を出力する
提案手法のモデル図
https://scrapbox.io/files/64e8191419585a001b21607d.png
新規性 = Human-in-the-loop設定におけるマルチモーダル物体検索への、learning-to-rankなアプローチ
Q. 他のアプローチは?
マルチモーダル画像検索(Fashion IQなど)と比較して、対象物だけに絞るのは難しいよねというロジック
Q. 普通に他の検索系でもできそうな気がしてしまう
Target Phrase Extractor
Multirankitの構成要素
Crossmodal Noun Phrase Encoder
Stanford Parserを用いて名詞句、prepositional phraseを抽出
それぞれをCLIP text encoderによって特徴空間へ写像
FFN、Transformer、視覚特徴量によって特徴量$ h_{\text{inst}}を得る
Crossmodal Reagion Feature Encoder
周辺からなる複数の画像を扱う。左右コンテキストからの環境も扱う
bbox画像とpanoptic画像からCLIP image encoderで特徴量$ h_\text{targ}を抽出する
$ h_\text{inst}と$ h_\text{targ}のcos類似度を計算、モデル出力はこの類似度に基づくランキングである。
損失関数は、各バッチでこの類似度のsoftmaxのlogである。
参照表現理解への誤りがある
専用データセット(LTRRIE)を作成
Matterport3D Simulatorでpanoptic imageを獲得
REVERIEで与えられる対象物体のcoordinatesを用いてpanopticからbboxを切り抜く
cropした際に、object全体を含んでいない可能性があるので、panopticな画像の把持にある物体は除外する
idea
MLPあたりに、画像との交差注意?
n-hop前の画像も追加入力
Smooth-Chamfer similarityの導入
あんまpaperの価値は高くなさそう
CVPR23 Highlightでした。すみませんでした。
TPEから出てきたnounの部分をマスクして、BBoxのcrop imageを渡してあげる、、?
Q. n_np_clipとはなんぞや
A. noun_phraseをclipにかけたもの
問題設定として、
対象物体のBBoxが入るかどうかが問題(それを中心とした左右画像)
pros
この場合、エンジニア側からBBoxを入れるようにしなきゃいけない
エンジニアさんに渡したほう、対象物体の画像だけから
これだとそのまま進めばOK
かつ、キャンパスレベルとOVMM設定ならこちらかも