Sa2VA
https://gyazo.com/55cd472e4748495c555afca239195027
https://lxtgh.github.io/project/sa2va/Project
https://github.com/bytedance/Sa2VAbytedance/Sa2VA
https://arxiv.org/abs/2501.04001Sa2VA: Marrying SAM2 with LLaVA for Dense Grounded Understanding of Images and Videos
https://gyazo.com/9f7a31e3ed3b2870b18c45353d3f7da7
MLLMが画像/動画/テキストからセグメンテーションしてほしい対象の情報をSEGトークンとして出力し、SAM2デコーダが読める埋め込みに変換してSAM 2に渡す(だけ)
動画セグメンテーションのオブジェクトの追跡なんかはSAM 2がやってるから、SeCと違って一度見切れたら見失うのかな?nomadoor.icon
実装
https://github.com/adambarbato/ComfyUI-Sa2VA?tab=readme-ov-fileadambarbato/ComfyUI-Sa2VA
ちょっと良くない実装で環境ぶっ壊すかもしれないnomadoor.icon
ポータブル版やSimpleComfyUiあたりで隔離環境を作って試すのがいいのかもしれないmorisoba65536.icon
https://github.com/PozzettiAndrea/ComfyUI-GroundingPozzettiAndrea/ComfyUI-Grounding
関連
SeC