Sa2VA
https://gyazo.com/55cd472e4748495c555afca239195027
https://gyazo.com/9f7a31e3ed3b2870b18c45353d3f7da7
MLLMが画像/動画/テキストからセグメンテーションしてほしい対象の情報をSEGトークンとして出力し、SAM2デコーダが読める埋め込みに変換してSAM 2に渡す(だけ)
動画セグメンテーションのオブジェクトの追跡なんかはSAM 2がやってるから、SeCと違って一度見切れたら見失うのかな?nomadoor.icon
実装
ちょっと良くない実装で環境ぶっ壊すかもしれないnomadoor.icon
関連