MiniGPT-4

GPT-4のvisual inputみたいなものをVicunaとBLIP-2を使って再現してみた

https://gyazo.com/61ca0c207dc4c91f6cd9257fd822ae4a

MiniGPT-4は、BLIP-2の凍結したビジュアルエンコーダーと凍結したLLMであるVicunaを、1つの投影層だけで位置合わせしています

tikgiau Excited to share MiniGPT-4, an open-sourced model performing complex vision-language tasks like GPT-4!

Write poems for photos

Pinpoint problems & offers solutions

Draft Website

and more!

@Gradio

huramingo.icon