音声生成AI
MusicLM: Generating Music From Text
SynthesizerV
https://gyazo.com/6567d61bfd98e89242c8a318255bb039
音声認識モデルはアメリカの人工知能研究所OpenAIが2022年に公開した高性能音声認識モデル「OpenAI Whisper」に匹敵する音声認識モデルだとし、「ReazonSpeech」のコーパスを用いて構築した「ESPnet」(End-to-End音声処理のためのツールキット)と、主要な音声認識モデルである「OpenAI Whisper」、「LaboroTVSpeech」との精度比較結果を公開している。
世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開