Dia-1.6B

@_doyeob_: Two undergrads. One still in the military. Zero funding.

One ridiculous goal: build a TTS model that rivals NotebookLM Podcast, ElevenLabs Studio, and Sesame CSM.

Somehow… we pulled it off. Here’s how 👇

https://gyazo.com/a367078ac33237669683f8cafe226b03

Diaは、書き起こされたテキスト（トランスクリプト）から、直接、極めてリアルな対話音声を生成します。音声（オーディオ）を条件として参照することで、出力される音声の感情やトーン（口調）をコントロールすることも可能です。

さらに、このモデルは笑い声、咳、咳払いといった、言葉以外の発声（ノンバーバルコミュニケーション）も生成することができます。

久々にインパクト受けたな、これはすごいnomadoor.icon