VALL-E - work4ai

VALL-E

TTSの非常にインパクトの大きい論文が出たので紹介.

VALL-E: Zero-shot音声合成システム. MetaのEnCodecを取り入れ, LLMタスクとみなすことでTransformerの強みを活かしている。論文タイトルからも察することができるように❌DALL-E論文と同様の立ち位置であることを示す

https://gyazo.com/fd7399f1951fc644ec7259c538b0fba0

とても自然だと思うwogikaze.icon

Looks like a community reproduction of VALL-E may come before the official release (no ETA or commitment from MSFT yet).

We may be able to clone anyone’s voice to synthesize any speech on @huggingface soon 😮

Link: https://t.co/sCYZ0PEOAL. Not lucidrains this time😄 Jim Fan

https://gyazo.com/646276c08e9974af19703399d6a63db2

ほー非公式の実装がもう出たのかwogikaze.icon