Glyph-ByT5
https://huggingface.co/papers/2403.09622Glyph-ByT5: A Customized Text Encoder for Accurate Visual Text Rendering
文字認識とグリフとの位置を表現するテキストエンコーダー
ByT5 エンコーダーを追加学習
Glyph-ByT5 を SDXL と統合し、デザイン イメージ生成用の Glyph‐SDXL モデルを作成する
テキストのレンダリング精度が大幅に向上し、デザイン画像ベンチマークで 20% 未満から 90% 近くまで向上
Glyph-SDXL が新たに発見したテキスト段落レンダリング機能
自動化された複数行レイアウトで数十から数百の文字に対して高いスペル精度を実現
https://gyazo.com/4510101cd39645b36a760ffb5e24e5b3
https://gyazo.com/73062fc63af80c83ff8bda371418acff
DeepFloyd IF
GlyphControl
TextDiffuser
TextDiffuser-2
Glyph-SDXL
Glyph-SDXL-Scene
などとの比較
関連
文字のControl