CogVLM
https://github.com/THUDM/CogVLMTHUDM/CogVLM
https://arxiv.org/abs/2311.03079CogVLM: Visual Expert for Pretrained Language Models
http://36.103.203.44:7861/Demo
Vit(EVA2-CLIP-E)、MLPアダプタ、GPT-?、visual expert moduleからなるVLM
visual expert module
言語モデルの各層でQKV行列とMLPを持ちます。これにより、入力に画像が含まれない場合、元の言語モデルと同じ振る舞いをします。
15億枚の画像
LAION-2B
COYO-700M
4000万枚の視覚グラウンディングデータ
https://gyazo.com/76b5c560d58997731a6800e0eb63c332
#THUDM