Moshi
https://youtu.be/hm2IJSKcYvo
https://moshi.chat/Demo
https://kyutai.org/cp_moshi.pdfKyutai unveils today the very first voice-enabled AI openly accessible to all
Kyutaiが開発した音声対話可能なAI
コードとモデルの重みを共有予定
done
https://github.com/kyutai-labs/moshikyutai-labs/moshi
Moshiは音声テキスト基盤モデルと全二重音声対話フレームワークです。 最先端のストリーミング・ニューラル・オーディオ・コーデックであるMimiを使用しています。 Mimiは、1.1kbpsの帯域幅で24kHzの音声を12.5Hzの表現まで、完全なストリーミング方式(フレームサイズである80msのレイテンシー)で処理するが、SpeechTokenizer(50Hz、4kbps)やSemantiCodec(50Hz、1.3kbps)のような既存の非ストリーミング・コーデックよりも優れたパフォーマンスを発揮する。
LLM