Moshi
https://youtu.be/hm2IJSKcYvo
コードとモデルの重みを共有予定
done
Moshiは音声テキスト基盤モデルと全二重音声対話フレームワークです。 最先端のストリーミング・ニューラル・オーディオ・コーデックであるMimiを使用しています。 Mimiは、1.1kbpsの帯域幅で24kHzの音声を12.5Hzの表現まで、完全なストリーミング方式(フレームサイズである80msのレイテンシー)で処理するが、SpeechTokenizer(50Hz、4kbps)やSemantiCodec(50Hz、1.3kbps)のような既存の非ストリーミング・コーデックよりも優れたパフォーマンスを発揮する。