WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

概要

DeepMindによる，生のオーディオデータの生成モデル，WaveNetに関する研究

手法のポイント

dilatedなものとそうでないものを提案

dilatedの場合，数レイヤーでも受容野がかなり大きくなる

https://gyazo.com/fab88de172d19ad840468ba3ed693776

PixelCNNで提案されたもの

sigmoidとtanhのelement-wise multiplicationによって実現される

Residual Blockを用いた全体のアーキテクチャ

https://gyazo.com/a47e77e527201b5ce27623b209cb3e2b

先行研究との差分

RNNよりも計算効率を高め，dilatedなアーキテクチャを用いることで少ないレイヤーで受容野を広げるということを可能にした

Multi-Speaker Speech Generationのタスクで高い精度を達成した

有効かどうかの検証

以下の実験で，他の手法との精度を検証

Multi-Speaker Speech Generation

スピーカーのIDをone-hot形式で渡したときに，その人の声を生成するようなモデル

存在しない単語だけど，人間の単語っぽいようなことを滑らかに話す

Text-To Speech

人間による5段階評価を行う

テキストから音声への変換の際に

議論

次に読む論文