Sa2VA - work4ai

Sa2VA

https://gyazo.com/55cd472e4748495c555afca239195027

https://gyazo.com/9f7a31e3ed3b2870b18c45353d3f7da7

MLLMが画像/動画/テキストからセグメンテーションしてほしい対象の情報をSEGトークンとして出力し、SAM2デコーダが読める埋め込みに変換してSAM 2に渡す(だけ)

動画セグメンテーションのオブジェクトの追跡なんかはSAM 2がやってるから、SeCと違って一度見切れたら見失うのかな？nomadoor.icon

実装

ちょっと良くない実装で環境ぶっ壊すかもしれないnomadoor.icon

ポータブル版やSimpleComfyUiあたりで隔離環境を作って試すのがいいのかもしれないmorisoba65536.icon