ACE-Step
現在の方法では、生成速度、音楽的な一貫性、制御性の間でトレードオフが生じています。例えば、LLMベースのモデル(Yue、SongGen など)は歌詞との整合性に優れているものの、推論速度が遅く構造的な欠陥が見られます。一方、拡散モデル(DiffRhythm など)はより高速な合成が可能ですが、長期的な構造的な一貫性に欠ける傾向があります。 ACE-Step は、拡散ベースの生成を Sana の Deep Compression AutoEncoder (DC-AE) と軽量な線形トランスフォーマーと統合することで、このギャップを埋めます。また、MERT と m-hubert を活用して、学習時にセマンティック表現(REPA)を整合させ、迅速な収束を実現します。 ComfyUI公式実装