Vision Language Model
マルチモーダル
マルチモーダルLLM
Visual Prompting
基盤モデル
映像基盤モデル
CLIP
Zero-shot Learning網羅的サーベイ:CLIPが切り開いたVision & Languageの新しい世界
https://techblog.exawizards.com/entry/2023/05/10/055218
Vision Language Model の 技術詳細と推論と学習
https://note.com/npaka/n/n76fb29eadbe6
Large Vision Language Model (LVLM) に関する最新知見まとめ
https://speakerdeck.com/onely7/large-vision-language-model-lvlm-niguan-suruzui-xin-zhi-jian-matome-part-1?slide=8
LongVLM: Efficient Long Video Understanding via Large Language Models
https://arxiv.org/pdf/2404.03384
【Pycon mini 東海 2024】Google Colaboratoryで試すVLM
https://speakerdeck.com/kazuhitotakahashi/pycon-mini-dong-hai-2024-google-colaboratorydeshi-suvlm?slide=2
Qwen2-VLとColPaliでマニュアル用ローカルQAボットを作ってみた
https://zenn.dev/firstautomation/articles/d05572e54949f3
YOLO-world
https://github.com/AILab-CVC/YOLO-World
Personalized Visual Instruction Tuning
https://arxiv.org/abs/2410.07113
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning
https://arxiv.org/abs/2410.06456
DynaMath: A Dynamic Visual Benchmark for Evaluating Mathematical Reasoning Robustness of Vision Language Models
https://github.com/DynaMath/DynaMath
画像系マルチモーダルLLMであるQwen2-VLのファインチューニングの練習
https://note.com/kan_hatakeyama/n/n61ea46ab1fca
生成AIを用いて製造現場における品質管理業務を自動化する:組み立て作業の自動評価システムの例
https://magazine.algomatic.jp/automation-quality-control-manufacturing-ai
A Systematic Survey of Prompt Engineering on Vision-Language Foundation Models
https://arxiv.org/abs/2307.12980
Are Vision-Language Models Truly Understanding Multi-vision Sensor?
https://arxiv.org/abs/2412.20750
https://moondream.ai/playground
VILA: Optimized Vision Language Models
https://github.com/NVlabs/VILA?tab=readme-ov-file#vila-optimized-vision-language-models
Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
https://arxiv.org/abs/2501.03225
アナログメーターやデジタルメーターの値を生成AIで読み取る
https://dev.classmethod.jp/articles/read-values-of-analog-and-digital-meters-with-gen-ai/
「DeepSeek Janusのアーキテクチャ」松尾研 LLM コミュニティ "Paper & Hacks Vol.35"
https://www.youtube.com/watch?v=DFnlVWbr5Jk
マルチモーダル理解・生成タスクではそれぞれ必要な理解度が異なる
理解タスクでは概要がつかめれば良いが、生成タスクではピクセルレベルの細部を知る必要がある
単一のモデルで理解と生成を行う場合、学習のバランスが重要になる
Chameleon
https://arxiv.org/abs/2405.09818
可変品質での圧縮を実現する画像トークナイザ「One-D-Piece」を公開しました
https://zenn.dev/turing_motors/articles/6d77c5a3b3712e