RelTransformer
タスクはVRR (Visual Releationship Recognition) 既存手法はGNNなどが多いが, GNNは近傍しか見ておらず, 自分に近いところの関係しか見ていない 例: 野球
野球選手とバットだけを見るよりも, 周りのキャッチャーやピッチャーの情報もコンテキスト情報として有益
https://gyazo.com/b29d1c29bdf5f31b35acff35828782fe
着目物体 $ n_s と物体 $ n_o と, その関係 $ r のtripletを入力して, encode
encodeしたtripletから, そのobject達に対する説明文を生成
https://gyazo.com/355a5808d6181f813c5459ce23aa9697