CogVLM - work4ai

CogVLM

Vit(EVA2-CLIP-E)、MLPアダプタ、GPT-?、visual expert moduleからなるVLM

visual expert module

言語モデルの各層でQKV行列とMLPを持ちます。これにより、入力に画像が含まれない場合、元の言語モデルと同じ振る舞いをします。

15億枚の画像

4000万枚の視覚グラウンディングデータ

https://gyazo.com/76b5c560d58997731a6800e0eb63c332