Step-Audio
Step-Audioは、理解と生成を調和させるインテリジェントな音声相互作用のための最初の生産対応のオープンソースフレームワークであり、多言語の会話(中国語、英語、日本語など)、感情的なトーン(たとえば、喜び/悲しみ)、地域の方言(例: 、広東/四川)、調整可能な音声レート、および韻律スタイル(ラップなど)。 Step-Audioは4つの重要な技術的革新を示しています。
https://github.com/stepfun-ai/Step-Audio/raw/refs/heads/main/examples/multilingual1.wav
要求VRAMが270GBぐらいなので逸般でも動かないのではwogikaze.icon
ライセンス