Step-Audio

https://github.com/stepfun-ai/Step-Audiostepfun-ai/Step-Audio

https://github.com/stepfun-ai/Step-Audio/blob/cn-readme/assets/Step-Audio.pdfStep-Audio: Unified Understanding and Generation in Intelligent Speech Interaction

Step-Audioは、理解と生成を調和させるインテリジェントな音声相互作用のための最初の生産対応のオープンソースフレームワークであり、多言語の会話（中国語、英語、日本語など）、感情的なトーン（たとえば、喜び/悲しみ）、地域の方言（例：、広東/四川）、調整可能な音声レート、および韻律スタイル（ラップなど）。 Step-Audioは4つの重要な技術的革新を示しています。

https://huggingface.co/stepfun-ai/Step-Audio-Chatstepfun-ai/Step-Audio-Chat

https://huggingface.co/stepfun-ai/Step-Audio-TTS-3Bstepfun-ai/Step-Audio-TTS-3B

https://huggingface.co/stepfun-ai/Step-Audio-Tokenizerstepfun-ai/Step-Audio-Tokenizer

https://github.com/stepfun-ai/Step-Audio/raw/refs/heads/main/examples/multilingual1.wav

要求VRAMが270GBぐらいなので逸般でも動かないのではwogikaze.icon

つProject Digitsnomadoor.icon

ライセンス

Apache 2.0

https://huggingface.co/datasets/stepfun-ai/StepEval-Audio-360stepfun-ai/StepEval-Audio-360

TTSベンチマーク