高品質なキャプショニングデータによるVLMの性能向上
書誌情報
タイトル: ShareGPT4V: Improving Large Multi-Modal Models with Better Captions
掲載元 : ECCV
掲載年 : 2024
著者  : Lin Chen, Jinsong Li, Xiaoyi Dong, Pan Zhang, Coughui He, Jiaqi Wang, Feng Zhao, Dahua Lin
リンク : https://www.ecva.net/papers/eccv_2024/papers_ECCV/papers/02629.pdf
何をしている論文?
GPT-4Vで作成した高品質なキャプショニングデータを使用することで、比較的軽量なVLMの性能を改善
高品質なデータセットで軽量VLMを学習(GPT-4Vとほぼ同性能)
軽量VLMで大量にデータセット作成
大規模データセットでVLMを1から作成→多くのベンチマークで当時のLLaVAやQwen等を凌駕
「高品質なキャプションデータって、有料で賢いLLMで全部作るのが理想だけど、莫大なコストがかかる。少しだけ作って軽量なモデルを賢くすれば、低コストでデータセットを拡張できるはず」というアイディア
データセットの作成と、VLMの学習の両方を実施
データセット: ShareGPT4V, ShareGPT4V-PT
VLM: Share Captioner, ShareGPT4V-7B
手法の概要
キャプションデータセットの作成
ShareGPT4V
軽量なVLM(Share Captioner)を学習するためのキャプションデータセット(約10万件)
GPT-4Vで作成
ShareGPT4V-PT
VLMの事前学習に用いる大規模キャプションデータセット(約120万件)
ShareGPT4Vで学習したVLM「Share Captioner」で作成
VLM「Share Captioner」の学習
ShareGPT4V-7Bの事前学習用大規模データセット作成のために使用するVLM
事前学習済みのVLMを、ShareGPT4VデータセットでFine-Tune
事前学習済みのVLMの詳細は不明(モデル名、サイズ等)
VLM「ShareGPT4V-7B」の学習
LLM、Image Encoder、Projectorから成るLLaVAベースのアーキテクチャを採用
ShareGPT4V-PTで事前学習、ShareGPT4VでFine-Tune
Image Encoderの重みも同時に学習←これがLLaVAと異なる
(補足)画像の収集方法
キャプショニング対象の画像を、複数のリソースから収集
評価実験の方法と結果
Share Captionerのキャプショニング性能を評価
目的: ShareGPT4V-PTデータセットの作成に使用するShare Captionerが、十分な性能を持っているかを確認
方法: GPT-4Vが作成したキャプショニングとのペアワイズ評価を、10名の被験者で実施
結果: GPT-4Vとほぼ同性能=十分な品質(GPT-4Vが良い: 38.2%, Share Captionerが良い: 35.3%, 同等: 26.5%)
作成したVLMのキャプショニング性能を評価
目的: 果たして作成したデータセットでVLMの性能は上がったのかを確かめる
方法: 11種類のベンチマークを実施。LLaVA-1.5やQwen等と比較
結果: 多くのベンチマークで比較手法を凌駕
面白いと感じた点
多様なリソースから画像を収集し、網羅性のあるデータセットを作成した点
VLMの性能改善、データセット構築に関する内容がECCVに通っている点
その他感想
トップカンファレンスに採択されたデータセット作成論文、参考になる
作成したShare Captionerの性能をGPT-4Vと比較している点は、抜かりないと感じた
LLaVA系のアーキテクチャは最近だともう古い?
#Yuma_Oe
#paper