Visual Instruction Tuning
_akhaliq Visual Instruction Tuning
abs: https://arxiv.org/abs/2304.08485
project page: https://llava-vl.github.io
@Gradio
demo: https://llava.hliu.cc
https://gyazo.com/a0586bedfeb8ff369b210fe6bfd8637b
機械が生成した命令追従データを用いた大規模言語モデル(LLM)の命令チューニングは、新しいタスクにおけるゼロショット能力を向上させてきたが、マルチモーダル分野ではこのアイデアはあまり検討されていない。本論文では、言語のみのGPT-4を用いて、マルチモーダルな言語・画像の命令追従データを生成する最初の試みを紹介する。LLaVAは、視覚エンコーダとLLMを接続し、汎用的な視覚・言語理解のためにエンドツーエンドで訓練された大規模マルチモーダルモデルである。初期の実験では、LLaVAは印象的なマルチモデル会話能力を示し、時には未見の画像/指示に対してマルチモーダルGPT-4の動作を示し、合成マルチモーダル指示追跡データセットにおいてGPT-4に比べ85.1%の相対スコアを獲得していることがわかった。