TIFA
https://gyazo.com/c51e5f2517f48716566cb77c3ca6bf8a
https://gyazo.com/3dee7a2807cbb56fbdd9d7a937671f55
プロンプトが与えられると画像生成モデルは絵を生成し、TIFAはいくつかの質問を生成する
生成された絵に対して質問が投げかけられ、VQAモデルが合っているか否かを回答する https://gyazo.com/a8597d7fdaba4b5a5853e85b3e577d64
4,081個の多様なテキスト入力と25,829個の質問・回答の組から構成
もしかしなくても?