ACE-Step
https://ace-step.github.io/Project
https://github.com/ace-step/ACE-Stepace-step/ACE-Step
https://huggingface.co/ACE-Step/ACE-Step-v1-3.5BACE-Step/ACE-Step-v1-3.5B
https://huggingface.co/spaces/ACE-Step/ACE-StepDemo
私たちは、新しいオープンソースの音楽生成基盤モデル「ACE-Step」を紹介します。
現在の方法では、生成速度、音楽的な一貫性、制御性の間でトレードオフが生じています。例えば、LLMベースのモデル(Yue、SongGen など)は歌詞との整合性に優れているものの、推論速度が遅く構造的な欠陥が見られます。一方、拡散モデル(DiffRhythm など)はより高速な合成が可能ですが、長期的な構造的な一貫性に欠ける傾向があります。
ACE-Step は、拡散ベースの生成を Sana の Deep Compression AutoEncoder (DC-AE) と軽量な線形トランスフォーマーと統合することで、このギャップを埋めます。また、MERT と m-hubert を活用して、学習時にセマンティック表現(REPA)を整合させ、迅速な収束を実現します。
ComfyUI公式実装
https://github.com/comfyanonymous/ComfyUI/pull/7972Initial ACE-Step model implementation.
https://huggingface.co/Comfy-Org/ACE-Step_ComfyUI_repackaged/tree/main/all_in_oneComfy-Org/ACE-Step_ComfyUI_repackaged
https://docs.comfy.org/tutorials/audio/ace-step/ace-step-v1ComfyUIの公式記事(Workflow付き)
https://comfyui-wiki.com/ja/tutorial/advanced/audio/ace-step/ace-step-v1ComfyUIWikiの記事
workflowつきでLoraや判明してる範囲の学習済み楽器など情報量はこちらのほうが多そう。
前述のComfyUI公式Workflowは実質的にネガティブプロンプト無効&Workflowの自動保存機能がない。
なのでネガティブプロンプト追加&Workflowの自動保存を追加したWorkflowを作った。
ネガティブプロンプト+Workflowの自動セーブ付きWorkflow
旧版AceStepAUTOWorkflow.json
公式にインスト向けのworkflowがあったので更新audio_ace_step_1_t2a_instrumentals_save_workflow.json
無理にボーカルをネガティブに突っ込む必要がなかった模様
インスト曲を作るためにネガティブを追加(Vocalをネガティブ指定)&空の画像ノード+画像保存(🦊Save Animated WEBPノード)でWorkflowを自動で保存。
Workflow保存用画像が、自動保存時に「同じ画像を保存するのでスキップされる」ことを防ぐために色とwebpのフレームレートをインクリメント指定している。
この辺はボーカル曲ならオリジナルのWorkflowに一部戻すとかインクリメントが半端に増えてる分は適宜初期化するとか適当にやってほしい(丸投げ)
#stepfun-ai
#text2audio
#text2music