Liquid
https://foundationvision.github.io/Liquid/
Project
https://github.com/FoundationVision/Liquid
FoundationVision/Liquid
https://arxiv.org/abs/2412.04332
Liquid: Language Models are Scalable and Unified Multi-modal Generators
https://gyazo.com/3e478044eefb109a958d2080a75b67ed
Liquidは、画像を離散コードにトークン化し、これらのコード埋め込みをテキストトークンと共に学習することで、視覚理解と生成をシームレスに統合する自己回帰生成パラダイムです。従来の多モーダル大規模言語モデル(MLLM)とは異なり、Liquidは単一の大規模言語モデル(LLM)を使用してこの統合を実現し、CLIPのような外部の事前学習済み視覚埋め込みを不要とします
画像生成モデル