MLLM - work4ai

MLLM

Multimodal Large Language Models

表記ゆれが多すぎる

MM-LLMs/MM-LLM/MLLMs/M-LLM/LMM

多言語言語モデルがMLLMと表記されている場合もあり(ごく少数)、ややこしい

Multimodalの方が優位に使われている気がする

例えば、以下で用いられているMLLMは多言語言語モデルの意味

Hugging Face等ではAny-to-Anyと扱われていますねmorisoba65536.icon

LVM/VLMと違うのか？

multiple modalities/multi-modality

Visionに限らず、複数のモダリティを扱えるものはMLLMとする？

MLLM初期はテキスト以外も扱おう！となったとき画像くらいしかなかったので、画像+テキストが扱えるLLM = MLLMみたいな認識だったnomadoor.icon

最近は音声やら赤外線やらあるけれど...、3つ以上のモダリティを扱うものは少ない気がする

CLIPはたぶんVLMなのだけれど、画像のタスクがメインなものと、Qwen2-VLみたいなLLMから画像に寄っていったものを同じVLMの括りにしていいのかが悩みどころ

参考

(何も書かれていなかったのでとりあえず)

🙏nomadoor.icon