マルチモーダルモデル
promptingとして画像と自然言語を組み合わせる
既存の言語モデルの重みを変化させず、マルチモーダルなfew-shot learner
OpenAIのCLIP登場などにより、テキスト画像の類似度が測れる、画像からテキストの生成によるZero-shot learningも可能に
Data2vecは言語・音声・画像を同じ枠組みで学習させられる自己教師あり学習
動画情報を認識し、過去の行動と物体の関係による状況の流れを理解するTransFusion
これにより、将来のアクションとオブジェクトの予測
人間に取ったら感覚的にできている、こうなったらこうなるよね、という物理世界での予測ができ始めてる
NVidiaのジムファン氏のチームが開発したPrismerというマルチモーダルモデル。画像の内容を理解できるAI。モデルはオープンソースで公開!画像からまずセグメンテーション、物体検出、文字読み取り、デプス、法線、エッジの情報を取得(この部分は既存のAIを使う)して、Prismerはこれらの情報を総合して判断する事で精度が上がったらしい
画像のInputから画像に関する情報を自然言語で出力してくれる。これとChatGPTなどを組み合わせれば、ChatGPTに視覚を拡張できるようになる。
2018年といえば,SSII2018で,「OS2: マルチモーダル深層学習:画像認識を越えて広がる世界 ~画像・自然言語・音声の共創~」が行われたタイミング
画像と言語のマルチモーダルモデルを触ると明らかに画像類似検索も賢くなるのが分かる。それが他ドメインにも起きる。
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation
Multimodal Chain-of-Thought Reasoning in Language Models
Flamingo
PaLI
生成AIのマルチモーダルモデルでできること
CoDi: Any-to-Any Generation via Composable Diffusion
A Survey on Multimodal Large Language Models
Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る
杉浦孔明研究室
「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた
マルチモーダル LLM と OCR + LLM を比較してみる
LLM×CVメタサーベイ
A Survey on Multimodal Large Language Models
Vision and Languageの現状と展望
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
LLaVA-Critic: Learning to Evaluate Multimodal Models
LLaVA-Criticは、多様なマルチモーダルタスクを評価するための最初のオープンソース大規模マルチモーダルモデル
OMCAT: Omni Context Aware Transformer
Ovis1.6-Gemma2-9B
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
Meta Spirit LM: Interleaved Spoken and Written Language Model