Vision Language Model
Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界
Vision Language Model の 技術詳細と推論と学習
Large Vision Language Model (LVLM) に関する最新知見まとめ
LongVLM: Efficient Long Video Understanding via Large Language Models
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた
YOLO-world
Personalized Visual Instruction Tuning
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
画像系マルチモーダルLLMであるQwen2-VLのファインチューニングの練習
生成AIを用いて製造現場における品質管理業務を自動化する:組み立て作業の自動評価システムの例
A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
VILA: Optimized Vision Language Models
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
アナログメーターやデジタルメーターの値を生成AIで読み取る
「DeepSeek Janusのアーキテクチャ」松尾研 LLM コミュニティ "Paper & Hacks Vol.35"
https://www.youtube.com/watch?v=DFnlVWbr5Jk
マルチモーダル理解・生成タスクではそれぞれ必要な理解度が異なる
理解タスクでは概要がつかめれば良いが、生成タスクではピクセルレベルの細部を知る必要がある
単一のモデルで理解と生成を行う場合、学習のバランスが重要になる
Chameleon
可変品質での圧縮を実現する画像トークナイザ「One-D-Piece」を公開しました