音声生成AI - 一人学際

音声生成AI

MusicLM: Generating Music From Text

https://google-research.github.io/seanet/musiclm/examples/

SynthesizerV

https://gyazo.com/6567d61bfd98e89242c8a318255bb039

音声認識モデルはアメリカの人工知能研究所OpenAIが2022年に公開した高性能音声認識モデル「OpenAI Whisper」に匹敵する音声認識モデルだとし、「ReazonSpeech」のコーパスを用いて構築した「ESPnet」（End-to-End音声処理のためのツールキット）と、主要な音声認識モデルである「OpenAI Whisper」、「LaboroTVSpeech」との精度比較結果を公開している。

世界最大1万9千時間の音声コーパスと高精度日本語音声認識モデルがオープンソースで公開

https://forest.watch.impress.co.jp/docs/news/1471724.html