Visual Instruction Tuning
Motivation 選んだ理由
最近モデルの学習の話が続いたので、新しい話題として
オープンな範囲でできるレベル感を知りたかった
学習データの作り方が面白かった
Summary どんなもの?
Multi-modal版 GPT-4 を目指して、LLaMAと画像エンコーダを繋げたモデル
GPT-4 (テキストのみ)とくらべて相対スコアが 85.1% と近いスコアを出している
Contribution 先行研究と比べてどこがすごい?
テキスト版GPT-4 をつかって、マルチモーダルLLMを学習するためのデータを作った
評価が難しいが、GPT-4に迫るスコアをだしていて、デモもかなりうまく動いている
Method 技術や手法のキモはどこ?
学習のためのデータ(LLaVA-Instruct-150K) 構築 をテキストのみのGPT-4で生成
https://gyazo.com/5119b80fdf50b4323f96e0c91a804a30
元となるのはCC やLAIONなどの、画像とキャプション、バウンディングボックスがセットになったデータ
画像のキャプションとバウンディングボックスをテキストとしてGPT-4に与え、3つのタスクを解かせる
Conversation
画像に関するAI アシスタントとユーザの数ターンの会話を生成する
明確な答えがある内容が対象
Detailed description
この画像を詳しく説明してください、など定形クエリにたいして、画像の解説を生成
Complex reasoning
step-by-step な推論を必要とするような質問とその回答
モデル
https://gyazo.com/2b49a864800178aba4124fbf65d35f0c
かなりシンプル
LM には LLaMA 13Bのモデルを使用
$ X_v は ViT-L/14 で生成した画像のembedding
$ W は$ X_vを$ H_vへ変換するための行列
2ステップで学習
Pre-training
CC3M をフィルタリングし、595Kの画像-キャプションペアを選択
キャプション内の固有名詞の頻度をつかい、頻度が3以下のものは捨て、100を超える場合はサンプリング
画像全体の説明を求めるクエリ$ X_qと、キャプション$ X_a のセットでpretraining
E2E Fine-tuning
作ったデータを使って、画像についての応答を学習
検証のため、画像に関するQAタスクのベンチマーク Science QA のデータでも学習
Experiments どうやって有効だと検証した?
質的評価
https://gyazo.com/6712ae290d1e6d91d060586af11bc1bc
このシーンで何が起こっているのか?
画像に描かれているのは、人通りの多い街中で黄色いSUVの上に立っている男だ。彼は携帯用のはしごを持っており、車の上に立ちながら服にアイロンをかけているようだ。周囲には他の車、信号機、消火栓がある。さらに、周囲には2人の人物がおり、1人は車に乗っている男の近くに、もう1人は遠くにいる。ハシゴの上の男は、走行中の車の上でアイロンをかけるという型破りな選択をしたため、注目を浴びているようだ。彼の周りの市街地は賑やかで、このシーンのユニークさに拍車をかけている。
https://gyazo.com/92c5cd6bb95f824d81a772dd1bfff4ec
画像のミームは、宇宙の中心であるチキンナゲットを中心に、食べ物を創造的かつユーモラスに表現したものだ。このミームは、"ときどき宇宙から地球の写真を見て、その美しさに感嘆する... "というフレーズで始まる。
メイン画像には、調理されたチキンナゲットのトレイが描かれており、世界地図上の大陸と島を模してチキンのピースが配置されている。このミームは、チキンナゲットが地球を表しており、写真に描かれているさまざまな場所は、実際にはさまざまな場所のチキンナゲット版であることを戯れに示唆している。
このミームのオチは、下に小さく表示されるテキストで、"つまり、これは本当の地球ではないけれど、なんと美しいことだろう "と書かれている。この軽快で楽しいミームは、食べ物とユーモアを組み合わせ、チキンナゲットのイメージを使って、面白くて想像力豊かな世界を表現している。
GPT-4 との比較
https://gyazo.com/34c6d84b9db36f9c39f7ec00ad48ce80
キャプション+バウンディングボックスを与えてGPT-4 に質問した場合の回答と、提案モデルの回答をGPT-4で評価したスコア
新規画像でも同程度動くことが示されている(ただしGPT-4しらべ)
人手評価する以外には現状これ以上のきっちりした評価は難しそう
Pre-training だけでは全然だめで、各タスクのデータを追加していくことで向上している
Pre-training と Detail の違いはそれほど大きくないが、LLM側の学習有無が影響大きそう
Ablation
https://gyazo.com/8fc1bf08a1997fa5b2b123b50671a6b5
BeforeとLast は、ViTの最終レイヤをつかうか、その前のレイヤを使うか
Training from scrach = Pre-training 無しの場合
ちゃんと効果はでている
7Bのモデルに差し替えても大きな損失はでていない
ScienceQAは省略
GPT-4 と組み合わせるとSoTAを超える
Discussion 議論はある?
Vision 側のモデルは工夫の余地あり
データも増やす余地がある
所感
タスクが難しく、ハルシネーションが多いのでそこを評価に含めたい
とはいえ、カバレッジ的な評価が難しいので、自明なことしか言わないモデルのスコアが高めにでてしまいそう
画像の意味す状況への理解度の高さなどは、人手以外では評価しにくい
面白いので使い道は探っていきたい