合成音声歌唱のポルタメントの統計的性質に基づくLSTMに入力する特徴量の検討
◎田中瑞穂, 竹川佳成, 平田圭二(公立はこだて未来大学)
近年,音声合成ソフトによる歌唱を用いた楽曲が増加している.それに伴い,人間歌唱を模倣する歌声自動合成システムが開発されている.しかし,合成音声歌唱には,歌唱の平坦さを軽減するためにユーザが生み出した固有の歌唱技術(急なピッチ変化や短いヴィブラートなど)が存在する.これらの歌唱技術は人間が歌唱することが想定されていないため,従来の人間歌唱を対象とした歌唱モデルでは効率よく学習,推定することが難しいと考えられる.そこで本研究では,UTAU のポルタメントについて統計を取り,その統計結果から特徴量を検討し,音声合成歌唱の表情付けのためのパラメータを LSTM を使用して学習,推定する.ポルタメントの統計では,各要素ごとのポルタメントの出現率とポルタメントの要素の傾向について調べた.その結果,音のタイプ,音高,音価がポルタメントの出現率に影響を与えていることがわかった.また,ポルタメントに用いる線の形状は重要視されていなかった.これらの統計的性質の観察結果から,学習に用いる特徴量を決定し,LSTM モデルで学習,推定を行う.このモデルを使用してポルタメントを付与した音声と従来手法で付与した音声の比較実験を行ったところ,抑揚の有無と歌唱の自然さ共に従来手法の方が高い評価を得た.しかし,一部楽曲の歌唱の自然さは,提案手法の方が高い評価を得た.
(口頭)
統計使ったデータをもう一度教えてもらってもよろしいでしょうか?
→一般のユーザ65名が作成したUST(楽譜データ)1500曲分となっています(田中)
結構こだわりのある人が作ったデータなのでしょうか?
→こだわりがある人と最低限の調節をしている人が半分ずついる印象です(田中)
ユーザーによる調節はどういう意味でしょうか?
→他の音源のような全自動の調節ではなく、人間が一から調節したという意味です(田中)
本実験で使用した楽曲QのURLです↓