Dia-1.6B
@_doyeob_: Two undergrads. One still in the military. Zero funding. One ridiculous goal: build a TTS model that rivals NotebookLM Podcast, ElevenLabs Studio, and Sesame CSM.
Somehow… we pulled it off. Here’s how 👇
https://gyazo.com/a367078ac33237669683f8cafe226b03
Diaは、書き起こされたテキスト(トランスクリプト)から、直接、極めてリアルな対話音声を生成します。音声(オーディオ)を条件として参照することで、出力される音声の感情やトーン(口調)をコントロールすることも可能です。 さらに、このモデルは笑い声、咳、咳払いといった、言葉以外の発声(ノンバーバルコミュニケーション)も生成することができます。 久々にインパクト受けたな、これはすごいnomadoor.icon