MLLM
Multimodal Large Language Models
表記ゆれが多すぎる
MM-LLMs/MM-LLM/MLLMs/M-LLM/LMM
多言語言語モデルがMLLMと表記されている場合もあり(ごく少数)、ややこしい
Multimodalの方が優位に使われている気がする
例えば、以下で用いられているMLLMは多言語言語モデルの意味
adaptMLLM
MLLM-Survey
Hugging Face等ではAny-to-Anyと扱われていますねmorisoba65536.icon
LVM/VLMと違うのか?
multiple modalities/multi-modality
Visionに限らず、複数のモダリティを扱えるものはMLLMとする?
MLLM初期はテキスト以外も扱おう!となったとき画像くらいしかなかったので、画像+テキストが扱えるLLM = MLLMみたいな認識だったnomadoor.icon
最近は音声やら赤外線やらあるけれど...、3つ以上のモダリティを扱うものは少ない気がする
CLIPはたぶんVLMなのだけれど、画像のタスクがメインなものと、Qwen2-VLみたいなLLMから画像に寄っていったものを同じVLMの括りにしていいのかが悩みどころ
参考
Survey on Multimodal Large Language Models
Multi-Modality Arena(evaluation platform for large multi-modality models)
(何も書かれていなかったのでとりあえず)
🙏nomadoor.icon
◯◯M