メロディを対象とした生成Deep Learningモデルの比較
○平井辰典(駒澤大学)
様々なメディア分野で生成 Deep Learning モデルが提案されており,その生成品質は年々向上している.音楽生成分野における生成モデルの発展についても,「音楽理論を逸脱するような音の生成例が減った」,「文脈を考慮したメロディを生成できている」といった品質の向上は認められると言える.しかし,こと音楽に関しては「より品質の良い生成結果である」ということを評価することが簡単ではない.本稿では,各種生成 Deep Learning モデルの実装を通じて,出力結果の品質を評価するのではなくそれぞれの特徴について客観的な比較を行う.
関連研究として紹介した研究のデモ
Jukebox (Dhariwal+, OpenAI, 2020):VQ-VAE,
MuseNet (Payne+, OpenAI, 2019):Sparse Transformer,
MusicTransformer (Huang+, ICLR2018):Transformer
Demo:https://magenta.tensorflow.org/assets/music_transformer/relatively_jazz.mp3
MuseGAN (Dong+, AAAI2018):GAN
Demo: https://salu133445.github.io/musegan/audio/best_samples.mp3
MusicVAE (Roberts+, ICML2018):VAE + RNN
Demo:
https://www.youtube.com/watch?v=G5JT16flZwM
DeepBach (Hadjeres+, ICML2017):LSTM
Demo:
https://www.youtube.com/watch?v=QiBM7-5hA6o
このような比較検討を待っていました.音楽生成の研究を始める際にどのアルゴリズムを選ぶかの参考になりそうです.(コメント)
データセットでLakhを使っていましたが,もう少しジャンルが絞られたデータセット(複数のジャンルの曲のMIDIが入っているデータだったと思います)だと,また結果は変わってくるのでしょうか?やはりとにかく数があることの方が大事でしょうか?(以上山本:筑波大)
⇒ジャンルを絞った方がうまくいくはずです.DeepBachは数百曲分のデータでうまく学習できていたので,目的によって学習データは絞るべきだと思います.今回は目的がない分,数を増やす方を重視しました.(平井)
...マンパワー不足でもう何年もやってないRencon復活させてもいいかと(中身刷新で)(橋田:福公大)
時間が足らず申し訳ありません!発表資料をしばらくここに置いておきます!(平井)
発表ありがとうございます!めちゃくちゃ興味深かったです.招待講演など,時間があるときにじっくり話を聞きたいと思いました!(竹川 未来大)