AnyText - work4ai

AnyText

https://gyazo.com/594c827faf3b6f9733859d4f180109d9

https://gyazo.com/74904083abc80b39ca630e2acb1fac74

テキストとマスクを潜在空間にエンコードする

テキストのグリフを画像としてレンダリングすることで、テキストの視覚的な特性を捉えるbing.icon

これによりテキストの形状、スタイル、レイアウトなどの情報が保持される

レンダリングされたグリフ画像をOCRモデルに入力し、グリフ情報を抽出

グリフ情報は、テキストエンコーダの出力と置き換えられ、テキストのセマンティクスとグリフ情報が統合される

Text-control Diffusion Pipeline

上２つから得られた情報を使って適切なノイズを追加する

既存の拡散モデルにプラグアンドプレイで組み込むことができる