LLaSA
https://github.com/zhenye234/LLaSA_training
zhenye234/LLaSA_training
https://huggingface.co/blog/srinivasbilla/llasa-tts
The SOTA Text-to-speech and Zero Shot Voice cloning model that no one knows about...
https://arxiv.org/abs/2502.04128
Llasa: Scaling Train-Time and Inference-Time Compute for Llama-based Speech Synthesis
Llama 3.2
に
xcodec2
をつけただけで、SOTAに近い性能の
ボイスクローン
&
TTS
ができるようになった
性能は良さそうなんだけど
cc-by-nc-4.0
で研究目的意外には基本使えないので使う際には留意が必要
https://huggingface.co/HKUSTAudio/Llasa-3B
HKUSTAudio/Llasa-3B
https://huggingface.co/spaces/srinivasbilla/llasa-3b-tts
Demo
https://huggingface.co/HKUSTAudio/Llasa-8B
HKUSTAudio/Llasa-8B
https://huggingface.co/spaces/srinivasbilla/llasa-8b-tts
Demo