マルチモーダル
GPT-4
マルチモーダルLLM
Vision Language Model
深層学習の原理
promptingとして画像と自然言語を組み合わせる
Prompt Engineering
既存の言語モデルの重みを変化させず、マルチモーダルなfew-shot learner
OpenAIのCLIP登場などにより、テキスト画像の類似度が測れる、画像からテキストの生成によるZero-shot learningも可能に
Data2vecは言語・音声・画像を同じ枠組みで学習させられる自己教師あり学習
動画情報を認識し、過去の行動と物体の関係による状況の流れを理解するTransFusion
これにより、将来のアクションとオブジェクトの予測
人間に取ったら感覚的にできている、こうなったらこうなるよね、という物理世界での予測ができ始めてる
https://twitter.com/akinoriosamura/status/1617757184267546625?s=20&t=nvtu7HjL6mU7d10ieWB1CA
NVidiaのジムファン氏のチームが開発したPrismerというマルチモーダルモデル。画像の内容を理解できるAI。モデルはオープンソースで公開!画像からまずセグメンテーション、物体検出、文字読み取り、デプス、法線、エッジの情報を取得(この部分は既存のAIを使う)して、Prismerはこれらの情報を総合して判断する事で精度が上がったらしい
https://twitter.com/umiyuki_ai/status/1633317655716442112?s=20
画像のInputから画像に関する情報を自然言語で出力してくれる。これとChatGPTなどを組み合わせれば、ChatGPTに視覚を拡張できるようになる。
https://twitter.com/cvml_eg/status/1631833802535481344?s=20
2018年といえば,SSII2018で,「OS2: マルチモーダル深層学習:画像認識を越えて広がる世界 ~画像・自然言語・音声の共創~」が行われたタイミング
画像と言語のマルチモーダルモデルを触ると明らかに画像類似検索も賢くなるのが分かる。それが他ドメインにも起きる。
https://twitter.com/kazunori_279/status/1634306824542502912?s=20
GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation
https://twitter.com/_akhaliq/status/1637623193283317774?s=20
Multimodal Chain-of-Thought Reasoning in Language Models
https://arxiv.org/abs/2302.00923
Flamingo
PaLI
生成AIのマルチモーダルモデルでできること
https://blog.brainpad.co.jp/entry/2023/06/06/160003
CoDi: Any-to-Any Generation via Composable Diffusion
https://codi-gen.github.io/
A Survey on Multimodal Large Language Models
https://arxiv.org/abs/2306.13549
Japanese MiniGPT-4: rinna 3.6bとBLIP-2を組み合わせてマルチモーダルチャットのモデルを作る
https://zenn.dev/rinna/articles/5fad41e3f2a401
杉浦孔明研究室
https://smilab.org/research/
https://smilab.org/
「GPT-4o」は何がすごい? なぜLLMは画像や音声も扱えるの? “マルチモーダル”について識者に聞いた
https://www.itmedia.co.jp/aiplus/articles/2406/27/news086_2.html
マルチモーダル LLM と OCR + LLM を比較してみる
https://cloud.flect.co.jp/entry/2024/09/06/154341
LLM×CVメタサーベイ
https://hirokatsukataoka.net/temp/presen/241011LLMxCV_MetaSurvey2024.pdf
A Survey on Multimodal Large Language Models
https://arxiv.org/abs/2306.13549
Vision and Languageの現状と展望
https://speakerdeck.com/sgnm/vision-and-languagenoxian-zhuang-tozhan-wang-gpt-4
マルチモーダル / AI Agent / LLMOps 3つの技術トレンドで理解するLLMの今後の展望
https://speakerdeck.com/hirosatogamo/llmops-3tunoji-shu-torendodeli-jie-surullmnojin-hou-nozhan-wang
LLaVA-Critic: Learning to Evaluate Multimodal Models
https://arxiv.org/abs/2410.02712
LLaVA-Criticは、多様なマルチモーダルタスクを評価するための最初のオープンソース大規模マルチモーダルモデル
OMCAT: Omni Context Aware Transformer
https://arxiv.org/abs/2410.12109
Ovis1.6-Gemma2-9B
https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
https://arxiv.org/abs/2410.13848
Meta Spirit LM: Interleaved Spoken and Written Language Model
https://github.com/facebookresearch/spiritlm
Mini-Omni2
https://github.com/gpt-omni/mini-omni2
Ocean-omni: To Understand the World with Omni-modality
https://arxiv.org/abs/2410.08565
【マルチモーダル情報処理セミナー2024③】マルチモーダルインタラクションの研究方法と研究動向
https://www.youtube.com/watch?v=1ADuAOkQ1sQ
マルチモーダル基盤モデル 岡崎 直観
https://llmc.nii.ac.jp/wp-content/uploads/2024/10/20240925_t5_okazaki.pdf
LLaVA-Critic: Learning to Evaluate Multimodal Models
https://arxiv.org/abs/2410.02712
Baichuan-Omni-1.5 Technical Report
https://arxiv.org/abs/2501.15368
HermesFlow: Seamlessly Closing the Gap in Multimodal Understanding and Generation
https://arxiv.org/pdf/2502.12148