CogVLM
https://github.com/THUDM/CogVLM
THUDM/CogVLM
https://arxiv.org/abs/2311.03079
CogVLM: Visual Expert for Pretrained Language Models
http://36.103.203.44:7861/
Demo
Vit(
EVA2-CLIP-E
)、MLPアダプタ、GPT-?、
visual expert module
からなる
VLM
visual expert module
言語モデルの各層でQKV行列とMLPを持ちます。これにより、入力に画像が含まれない場合、元の言語モデルと同じ振る舞いをします。
15億枚の画像
LAION-2B
COYO-700M
4000万枚の視覚グラウンディングデータ
https://gyazo.com/76b5c560d58997731a6800e0eb63c332
#THUDM