高品質なキャプショニングデータによるVLMの性能向上

書誌情報

タイトル: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions

掲載元　: ECCV

掲載年　: 2024

著者　　: Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Coughui He, Jiaqi Wang, Feng Zhao, Dahua Lin

リンク　: https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02629.pdf

何をしている論文？

GPT-4Vで作成した高品質なキャプショニングデータを使用することで、比較的軽量なVLMの性能を改善

高品質なデータセットで軽量VLMを学習（GPT-4Vとほぼ同性能）

軽量VLMで大量にデータセット作成

大規模データセットでVLMを1から作成→多くのベンチマークで当時のLLaVAやQwen等を凌駕

「高品質なキャプションデータって、有料で賢いLLMで全部作るのが理想だけど、莫大なコストがかかる。少しだけ作って軽量なモデルを賢くすれば、低コストでデータセットを拡張できるはず」というアイディア

データセットの作成と、VLMの学習の両方を実施

データセット: ShareGPT4V, ShareGPT4V-PT

VLM: Share Captioner, ShareGPT4V-7B

手法の概要

キャプションデータセットの作成

ShareGPT4V

軽量なVLM（Share Captioner）を学習するためのキャプションデータセット（約10万件）

GPT-4Vで作成

ShareGPT4V-PT

VLMの事前学習に用いる大規模キャプションデータセット（約120万件）

ShareGPT4Vで学習したVLM「Share Captioner」で作成

VLM「Share Captioner」の学習

ShareGPT4V-7Bの事前学習用大規模データセット作成のために使用するVLM

事前学習済みのVLMを、ShareGPT4VデータセットでFine-Tune

事前学習済みのVLMの詳細は不明（モデル名、サイズ等）

VLM「ShareGPT4V-7B」の学習

LLM、Image Encoder、Projectorから成るLLaVAベースのアーキテクチャを採用

ShareGPT4V-PTで事前学習、ShareGPT4VでFine-Tune

Image Encoderの重みも同時に学習←これがLLaVAと異なる

（補足）画像の収集方法

キャプショニング対象の画像を、複数のリソースから収集

評価実験の方法と結果

Share Captionerのキャプショニング性能を評価

目的: ShareGPT4V-PTデータセットの作成に使用するShare Captionerが、十分な性能を持っているかを確認

方法: GPT-4Vが作成したキャプショニングとのペアワイズ評価を、10名の被験者で実施

結果: GPT-4Vとほぼ同性能＝十分な品質（GPT-4Vが良い: 38.2%, Share Captionerが良い: 35.3%, 同等: 26.5%）

作成したVLMのキャプショニング性能を評価

目的: 果たして作成したデータセットでVLMの性能は上がったのかを確かめる

方法: 11種類のベンチマークを実施。LLaVA-1.5やQwen等と比較

結果: 多くのベンチマークで比較手法を凌駕

面白いと感じた点

多様なリソースから画像を収集し、網羅性のあるデータセットを作成した点

VLMの性能改善、データセット構築に関する内容がECCVに通っている点

その他感想

トップカンファレンスに採択されたデータセット作成論文、参考になる

作成したShare Captionerの性能をGPT-4Vと比較している点は、抜かりないと感じた

LLaVA系のアーキテクチャは最近だともう古い？

#Yuma_Oe

#paper