音声合成
メモ、音声合成の国際学会
・INTERSPEECH 2022
・ICASSP2022
VALL-E
【注目論文】Sinusoidal Frequency Estimation by Gradient Descent
coefont
最先端のAI音声変換技術を用いて、誰の声でもリアルタイムに自分以外の人の声色に変換できる ソフトウエアを開発
音声合成エンジン
リアルな人間っぽい合成音声を生成するAI 「えー」「あぁ」「うん」なども再現 YouTubeやPodcastで学習
来週のNLC研究会で「自由記述文による声質制御に向けたin-the-wild文データ収集法」を発表します.
合成音声の声質も自然言語(論文では日本語)で指示できるようにしよう,そのためにクソデカデータセットを作ろう,という話です.(去年の6月くらいから集めててやっと終わった)
AssemblyAIがものすごい精度の音声認識AI出してきた。
OpenAIのWhisperもえげつない精度の高さだったが、動画内の最後のチャートにあるように全てのジャンルでWhisperよりも認識精度が高い。
ここまで精度上がってくるとVUIの普及も一気に加速しそう。
ChatGPTに声を与えてみる(ESPNet)
coeiroink
WhisperをFineTuningして専門用語を認識可能にする
Hugging FaceでOpenAIの音声認識”Whisper”をFine Tuningする方法が公開されました
OpenAI の Whisper を、自前の音声データで Fine Tuning するプログラム
音声認識(文字起こし)の精度をより向上するにはどうしたら良いですか?
CPUで高速動作可能なニューラルネットを用いた高品質テキスト音声合成技術
text2speech speech2text
amazon poly
webspeechAPI
whisper
AWS Transbribe
google speech-to-text
Parler-TTS