Moshi - work4ai

Moshi

https://youtu.be/hm2IJSKcYvo

https://kyutai.org/cp_moshi.pdfKyutai unveils today the very first voice-enabled AI openly accessible to all

Kyutaiが開発した音声対話可能なAI

コードとモデルの重みを共有予定

done

https://github.com/kyutai-labs/moshikyutai-labs/moshi

Moshiは音声テキスト基盤モデルと全二重音声対話フレームワークです。最先端のストリーミング・ニューラル・オーディオ・コーデックであるMimiを使用しています。 Mimiは、1.1kbpsの帯域幅で24kHzの音声を12.5Hzの表現まで、完全なストリーミング方式（フレームサイズである80msのレイテンシー）で処理するが、SpeechTokenizer（50Hz、4kbps）やSemantiCodec（50Hz、1.3kbps）のような既存の非ストリーミング・コーデックよりも優れたパフォーマンスを発揮する。

LLM