RelTransformer

タスクはVRR (Visual Releationship Recognition)

既存手法はGNNなどが多いが, GNNは近傍しか見ておらず, 自分に近いところの関係しか見ていない

例: 野球

野球選手とバットだけを見るよりも, 周りのキャッチャーやピッチャーの情報もコンテキスト情報として有益

https://gyazo.com/b29d1c29bdf5f31b35acff35828782fe

着目物体 $ n_s と物体 $ n_o と, その関係 $ r のtripletを入力して, encode

encodeしたtripletから, そのobject達に対する説明文を生成

https://gyazo.com/355a5808d6181f813c5459ce23aa9697