Omost
単独版
https://github.com/lllyasviel/Omostlllyasviel/Omost
ComfyUI版
https://github.com/huchenlei/ComfyUI_omosthuchenlei/ComfyUI_omost
Omost は、LLM のコーディング機能を画像生成 (より正確には、画像合成) 機能に変換するプロジェクトです。
名前Omost(発音: almost) には 2 つの意味があります: 1) Omost を使用すると、イメージがほぼ実現される。2) O「omni」(マルチモーダル) を意味し、most最大限に活用したいという意向を表します。
Omostは、Omostの仮想エージェントを用いて画像ビジュアルコンテンツを構成するためのコードを記述するLLMモデルを提供しますCanvas。これはCanvas、画像ジェネレータの特定の実装によってレンダリングされ、実際に画像を生成することができます。
現在、Llama3 と Phi3 のバリエーションに基づいて、事前トレーニング済みの LLM モデルを 3 つ提供しています (このページの最後にあるモデルに関する注記も参照してください)。
すべてのモデルは、(1)Open-Imagesを含むいくつかのデータセットのグラウンドトゥルースアノテーション、(2)画像に自動的にアノテーションを付与して抽出したデータ、(3)DPO(Direct Preference Optimization、「コードがPython 3.10でコンパイルできるかどうか」を直接的な好みとして扱う)からの強化、(4)OpenAI GPT4oのマルチモーダル機能からの少量のチューニングデータの混合データを使用してトレーニングされています。
https://note.com/gentle_murre488/n/n81c4f063bb27日本語解説記事
端的に言えば現在では割と増えてきたPromptEnhancer的なものの、最初期のプロダクトの一つ