リッチテキストを用いた画像生成
プロンプトをリッチテキストで入力することで、色や量などをコントロールする プレーン : 花束に囲まれた猫
(1) : サングラスを掛けている
https://gyazo.com/535f2b9bf312edd6f3af780aff4f3fbd
仕組み
https://rich-text-to-image.github.io/video_assets/framework.mp4
このUI思いつかなかったなぁnomadoor.icon テキストベースのまま拡張しているのが素晴らしい
論文を斜め読みした感じ以下のようなワークフローのはず、、、
修飾される前のテキスト(プレーンテキスト)を元に一度画像を生成し、どのトークンが画像上のどの部分にどれだけ作用するのかの二次元マスク(トークンマップ)をそれぞれ作成
(1ステップ目では干渉する画像を避けるためにプレーンテキストを使っているらしい)
2ステップ以降では以下手順でプロンプトを修正、加筆している
1. 注釈があれば注釈の文章に変更
2. フォントスタイルが変更されてのであれば "ここまでのプロンプト" in the style of "フォント名"にプロンプトを修正
フォント名はukioeやsyberpunk等
3. フォントに色が指定されているのであれば、 "色名" "ここまでのプロンプト"にプロンプトを修正
カラーコードであれば用意されている色の名前の中から一番近いものを使う
その他元となる画像と整合性を持つための手法がいくつかあるっぽい