AnyText
https://gyazo.com/594c827faf3b6f9733859d4f180109d9
https://gyazo.com/74904083abc80b39ca630e2acb1fac74
テキストとマスクを潜在空間にエンコードする
テキストのグリフを画像としてレンダリングすることで、テキストの視覚的な特性を捉えるbing.icon
これによりテキストの形状、スタイル、レイアウトなどの情報が保持される
レンダリングされたグリフ画像をOCRモデルに入力し、グリフ情報を抽出 グリフ情報は、テキストエンコーダの出力と置き換えられ、テキストのセマンティクスとグリフ情報が統合される
Text-control Diffusion Pipeline
上2つから得られた情報を使って適切なノイズを追加する
既存の拡散モデルにプラグアンドプレイで組み込むことができる
関連