SDMatte - work4ai

SDMatte

https://gyazo.com/d54de639f2a513f3db998be11383a6b4

Stable Diffusionの知識を利用し、ポイント・BBOX・ラフなマスクで指定した対象のAlpha matteを生成する(Alpha Matting)モデル

https://gyazo.com/42a83cde287db750be094dc1b3473ee1

Visual Prompt Cross-Attention Mechanism

テキスト埋め込みを視覚的なプロンプト埋め込みに置き換える

Opacity

透明度をU-Netに条件として追加

Coordinate Embeddings

視覚的プロンプトとして渡されたポイント・BBOX座標をEmbeddingしてモデルに渡す

ポイントはその座標をそのまま使い、BBOXは左上と右下の座標を仕様

マスクを使用した場合は、マスクが囲うようにBBOXに変換するので、実質BBOxと同じ

ライセンス

実装

https://gyazo.com/20d779974ec46b29fefc5349138b8175

モデルにはSDMatteとSDMatte_plusがある

https://github.com/vivoCameraResearch/SDMatte/issues/4plusのほうが高性能だが、ボックスマスクにしか対応していない(ポイントに対応してない)

このノードはボックスマスク方式なため、気にせずplusを使ったほうが良いかもしれないnomadoor.icon

https://gyazo.com/f9d553b786aa8c8fe73373c4926aed8a

🟨Florence-2などと組み合わせるとテキストで切り抜きできる