WAVENET: A GENERATIVE MODEL FOR RAW AUDIO
概要
手法のポイント
dilatedなものとそうでないものを提案
dilatedの場合,数レイヤーでも受容野がかなり大きくなる
https://gyazo.com/fab88de172d19ad840468ba3ed693776
https://gyazo.com/a47e77e527201b5ce27623b209cb3e2b
先行研究との差分
RNNよりも計算効率を高め,dilatedなアーキテクチャを用いることで少ないレイヤーで受容野を広げるということを可能にした Multi-Speaker Speech Generationのタスクで高い精度を達成した
有効かどうかの検証
以下の実験で,他の手法との精度を検証
Multi-Speaker Speech Generation
スピーカーのIDをone-hot形式で渡したときに,その人の声を生成するようなモデル
存在しない単語だけど,人間の単語っぽいようなことを滑らかに話す
Text-To Speech
人間による5段階評価を行う
テキストから音声への変換の際に
議論
次に読む論文