MLLM
Multimodal Large Language Models
表記ゆれが多すぎる
MM-LLMs/MM-LLM/MLLMs/M-LLM/LMM 多言語言語モデルがMLLMと表記されている場合もあり(ごく少数)、ややこしい
Multimodalの方が優位に使われている気がする
例えば、以下で用いられているMLLMは多言語言語モデルの意味
LVM/VLMと違うのか?
multiple modalities/multi-modality
Visionに限らず、複数のモダリティを扱えるものはMLLMとする?
MLLM初期はテキスト以外も扱おう!となったとき画像くらいしかなかったので、画像+テキストが扱えるLLM = MLLMみたいな認識だったnomadoor.icon
最近は音声やら赤外線やらあるけれど...、3つ以上のモダリティを扱うものは少ない気がする
CLIPはたぶんVLMなのだけれど、画像のタスクがメインなものと、Qwen2-VLみたいなLLMから画像に寄っていったものを同じVLMの括りにしていいのかが悩みどころ 参考
(何も書かれていなかったのでとりあえず)
🙏nomadoor.icon