MultiRankIt

RAL23

#paper #速読

LTRPO taskを扱うモデル

https://scrapbox.io/files/64e818e3bf5678001cd67450.png

入力

Instruction： DSRへの家事をおこなうためのopen-vocabularyなinstruction

Indoor images：

targetのbboxが予測のための教師データとして必要、関連性に基づきenvironmentには$ N個のbounding boxが与えられる。

出力

Ranked List

$ N番目まで、Instructionが指す対象物体の候補を出力する

提案手法のモデル図

https://scrapbox.io/files/64e8191419585a001b21607d.png

新規性 = Human-in-the-loop設定におけるマルチモーダル物体検索への、learning-to-rankなアプローチ

Q. 他のアプローチは？

マルチモーダル画像検索(Fashion IQなど)と比較して、対象物だけに絞るのは難しいよねというロジック

Q. 普通に他の検索系でもできそうな気がしてしまう

Target Phrase Extractor

Multirankitの構成要素

Crossmodal Noun Phrase Encoder

Stanford Parserを用いて名詞句、prepositional phraseを抽出

それぞれをCLIP text encoderによって特徴空間へ写像

FFN、Transformer、視覚特徴量によって特徴量$ h_{\text{inst}}を得る

Crossmodal Reagion Feature Encoder

周辺からなる複数の画像を扱う。左右コンテキストからの環境も扱う

bbox画像とpanoptic画像からCLIP image encoderで特徴量$ h_\text{targ}を抽出する

$ h_\text{inst}と$ h_\text{targ}のcos類似度を計算、モデル出力はこの類似度に基づくランキングである。

損失関数は、各バッチでこの類似度のsoftmaxのlogである。

参照表現理解への誤りがある

専用データセット(LTRRIE)を作成

Matterport3D Simulatorでpanoptic imageを獲得

REVERIEで与えられる対象物体のcoordinatesを用いてpanopticからbboxを切り抜く

cropした際に、object全体を含んでいない可能性があるので、panopticな画像の把持にある物体は除外する

idea

MLPあたりに、画像との交差注意？

n-hop前の画像も追加入力

Smooth-Chamfer similarityの導入

https://arxiv.org/pdf/2211.16761.pdf

あんまpaperの価値は高くなさそう

CVPR23 Highlightでした。すみませんでした。

Pic2Wordの導入

TPEから出てきたnounの部分をマスクして、BBoxのcrop imageを渡してあげる、、？

Q. n_np_clipとはなんぞや

A. noun_phraseをclipにかけたもの

問題設定として、

対象物体のBBoxが入るかどうかが問題（それを中心とした左右画像）

pros

この場合、エンジニア側からBBoxを入れるようにしなきゃいけない

エンジニアさんに渡したほう、対象物体の画像だけから

これだとそのまま進めばOK

かつ、キャンパスレベルとOVMM設定ならこちらかも