Liquid - work4ai

Liquid

https://foundationvision.github.io/Liquid/Project

https://github.com/FoundationVision/LiquidFoundationVision/Liquid

https://arxiv.org/abs/2412.04332Liquid: Language Models are Scalable and Unified Multi-modal Generators

https://gyazo.com/3e478044eefb109a958d2080a75b67ed

Liquidは、画像を離散コードにトークン化し、これらのコード埋め込みをテキストトークンと共に学習することで、視覚理解と生成をシームレスに統合する自己回帰生成パラダイムです。従来の多モーダル大規模言語モデル（MLLM）とは異なり、Liquidは単一の大規模言語モデル（LLM）を使用してこの統合を実現し、CLIPのような外部の事前学習済み視覚埋め込みを不要とします

画像生成モデル