MasaCtrl
https://gyazo.com/ed3ddb55fded53c527cdd8598467ed83
大規模なテキスト画像生成やテキスト条件付き画像編集の成功にもかかわらず、既存の方法は一貫した生成や編集の結果を出すのに苦労しています。例えば、生成手法では、同じオブジェクトやキャラクターであっても、異なるビューやポーズを持つ複数の画像を合成することができないのが普通です。一方、既存の編集手法は、全体のテクスチャやアイデンティティを維持しながら効果的な複雑な非剛体編集を実現できないか、画像固有の外観を捉えるために時間のかかる微調整が必要であるかのいずれかである。本論文では、一貫した画像生成と複雑な非剛体画像編集を同時に実現するチューニング不要の手法、MasaCtrlを開発する。具体的には、MasaCtrlは、拡散モデルにおける既存の自己注意を相互自己注意に変換することで、ソース画像から相関のあるローカルコンテンツやテクスチャを問い合わせ、一貫性を持たせることができるようにする。前景と背景の間のクエリの混乱をさらに緩和するために、マスク誘導型相互自己注目戦略を提案し、マスクは相互注目マップから容易に抽出することができる。広範な実験により、提案するMasaCtrlは、一貫性のある画像生成と複雑な非剛体実画像編集の両方において印象的な結果をもたらすことが示された。 MasaCtrlは、テキストベースの非剛体画像合成と実画像編集を、微調整なしで行うことができます。また、本手法はT2I-Adapterのような制御可能な拡散モデルに容易に組み込むことができ、より一貫性のある忠実な合成・編集を行うことができます。 MasaCtrl試してみた。(同一キャラ別ポーズを生成する手法)
https://gyazo.com/303f2220ff0c73543f24a19885f60970https://gyazo.com/26706060548530dd1d4e9249e702df0f
https://gyazo.com/0d7e967c50db02190d5451cb41249b72