Qwen2-VL
https://gyazo.com/e30b0c6046d61e5d82defa8ef39911fc
https://github.com/QwenLM/Qwen2-VLQwenLM/Qwen2-VL
Qwen2ベースのVLM
Qwen2-VLは、高品質のビデオベースの質問応答、ダイアログ、コンテンツ作成などのために、20分を超えるビデオを理解することができます。
英語と中国語に加えて、Qwen2-VLは、ほとんどのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語など、画像内のさまざまな言語のテキストの理解をサポートするようになりました。
ベンチマーク
https://gyazo.com/d2674dc8710956d7f1b56016de1166b2
Qwen2-VL-2BとQwen2-VL-7BはApache 2.0
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800dQwen2-VL
Qwen2-VL-72BはAPIのみ
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-apiAPI