マルチモーダルモデル

GPT-4

マルチモーダルLLM

promptingとして画像と自然言語を組み合わせる

Prompt Engineering

既存の言語モデルの重みを変化させず、マルチモーダルなfew-shot learner

OpenAIのCLIP登場などにより、テキスト画像の類似度が測れる、画像からテキストの生成によるZero-shot learningも可能に

Data2vecは言語・音声・画像を同じ枠組みで学習させられる自己教師あり学習

動画情報を認識し、過去の行動と物体の関係による状況の流れを理解するTransFusion

これにより、将来のアクションとオブジェクトの予測

人間に取ったら感覚的にできている、こうなったらこうなるよね、という物理世界での予測ができ始めてる

https://twitter.com/akinoriosamura/status/1617757184267546625?s=20&t=nvtu7HjL6mU7d10ieWB1CA

NVidiaのジムファン氏のチームが開発したPrismerというマルチモーダルモデル。画像の内容を理解できるAI。モデルはオープンソースで公開！画像からまずセグメンテーション、物体検出、文字読み取り、デプス、法線、エッジの情報を取得（この部分は既存のAIを使う）して、Prismerはこれらの情報を総合して判断する事で精度が上がったらしい

https://twitter.com/umiyuki_ai/status/1633317655716442112?s=20

画像のInputから画像に関する情報を自然言語で出力してくれる。これとChatGPTなどを組み合わせれば、ChatGPTに視覚を拡張できるようになる。

https://twitter.com/cvml_eg/status/1631833802535481344?s=20

2018年といえば，SSII2018で，「OS2: マルチモーダル深層学習：画像認識を越えて広がる世界～画像・自然言語・音声の共創～」が行われたタイミング

画像と言語のマルチモーダルモデルを触ると明らかに画像類似検索も賢くなるのが分かる。それが他ドメインにも起きる。

https://twitter.com/kazunori_279/status/1634306824542502912?s=20

GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation

https://twitter.com/_akhaliq/status/1637623193283317774?s=20

Multimodal Chain-of-Thought Reasoning in Language Models

https://arxiv.org/abs/2302.00923

Flamingo

PaLI