ReMoDiffuse
https://youtu.be/wSddrIA_2p8
https://mingyuan-zhang.github.io/projects/ReMoDiffuse.html
https://arxiv.org/abs/2304.01116
3Dヒューマンモーションの生成は、クリエイティブ産業にとって極めて重要である。最近の研究では、テキスト駆動型モーション生成のために、ドメイン知識を持つ生成モデルに依存しており、一般的なモーションのキャプチャに大きな進歩をもたらしている。しかし、より多様なモーションに対する性能はまだ満足のいくものではありません。本研究では、拡散モデルベースのモーション生成フレームワークであるReMoDiffuseを提案し、ノイズ除去プロセスを改良するための検索メカニズムを統合する。ReMoDiffuseは、3つの主要な設計により、テキスト駆動型モーション生成の汎用性と多様性を向上させる:1) ハイブリッド検索は、意味的および運動学的な類似性の観点から、データベースから適切な参照先を見つける。2) Semantic-Modulated Transformerは、検索されたサンプルとターゲットモーションシーケンスの違いに適応し、検索知識を選択的に吸収します。3) 条件混合は、推論時に検索データベースをより良く利用し、分類器なしのガイダンスにおけるスケール感度を克服する。ReMoDiffuseは、テキストとモーションの一貫性とモーションの品質のバランスをとることで、特により多様なモーション生成において、最先端の手法を上回ることを広範な実験により実証している。
text2motion