UMM-Diffusion
本研究では、指定された被写体を含むテキストと画像を入力シーケンスとして受け取り、被写体を含むカスタマイズされた画像を生成する新しい統一マルチモーダル潜在拡散(UMM-Diffusion)を提示する。具体的には、入力テキストと画像の両方を一つの統一マルチモーダル潜在空間に符号化し、その中で、入力画像を擬似的な単語埋め込みに投影するように学習し、さらにテキストと組み合わせて画像生成を誘導することができる。さらに、入力画像の背景や照明などの無関係な部分を除去するために、マルチモーダル入力と純粋なテキスト入力によって導かれる結果を融合させる、画像生成装置が用いる拡散モデルの新しいサンプリング手法を提案する。 https://gyazo.com/b94b83c7ba0437569fba96cffbec9294