Dia-1.6B
@_doyeob_: Two undergrads. One still in the military. Zero funding.
One ridiculous goal: build a TTS model that rivals NotebookLM Podcast, ElevenLabs Studio, and Sesame CSM.
Somehow… we pulled it off. Here’s how 👇
https://gyazo.com/a367078ac33237669683f8cafe226b03
https://github.com/nari-labs/dianari-labs/dia
https://huggingface.co/nari-labs/Dia-1.6Bnari-labs/Dia-1.6B
Diaは、書き起こされたテキスト(トランスクリプト)から、直接、極めてリアルな対話音声を生成します。音声(オーディオ)を条件として参照することで、出力される音声の感情やトーン(口調)をコントロールすることも可能です。
さらに、このモデルは笑い声、咳、咳払いといった、言葉以外の発声(ノンバーバルコミュニケーション)も生成することができます。
久々にインパクト受けたな、これはすごいnomadoor.icon
#Nari_Labs