歌唱テクニックの識別におけるHand-crafted特徴量と深層学習特徴量の比較

https://scrapbox.io/files/6050389f2aaa7300222f9510.png

◎山本雄也（筑波大学）, JuhanNam（KAIST）, 寺澤洋子, 平賀譲（筑波大学）

本研究は歌唱テクニックの識別において，専門知識に基づき設計された特徴量（hand-crafted 特徴量）と深層学習によって自律的に獲得した特徴量の識別性能を比較するものである．歌唱テクニックは歌手が歌唱中に音高・音色・音量を変動させることにより表現する技法である．歌唱テクニックの様相は様々であり，中には特性が未解明なものや非自明なものも含まれているため，その特徴をとらえるのは難しい．本研究では深層学習による自律的な特徴獲得によって，歌唱テクニックの明示的モデリングを回避する方法について検討する．検証事項として特徴抽出の良し悪しのみを考えるため，分類器の条件を一定にする．従来の音声分類問題に用いられた hand-crafted 特徴量と深層学習により抽出した特徴量を用いて同分類器を学習させ比較する．10 種類の歌唱テクニック分類実験の結果，深層学習による特徴抽出では 73.6% の正解率が得られた．この数値は hand-crafted 特徴量での結果を 2.6% 上回っており，明示的モデリングなしでも hand-crafted 特徴量を用いた場合と同等の性能が得られることを確認した．特に極端な歌唱テクニックにおいて hand-crafted 特徴量を用いた場合より正解率が高く，深層学習による特徴の自動獲得が有用である可能性を示した．

http://id.nii.ac.jp/1001/00210163/

スライド

https://speakerdeck.com/yamathcy/sigmus130-yamamoto

手法の概要

何をしたか

CNNによって自動的に抽出された特徴と専門知識に基づくhand-crafted特徴量の比較

なぜしたか

歌唱テクニックという”様々な要素が絡んだ”識別問題において深層学習とドメイン特徴量を比較した研究はこれまでなかった

完全に識別できるhand-crafted特徴を設計するのは難しい，ので深層学習の活用が期待できる

しかし先人が築き上げた貴重な遺産であるhand-crafted特徴は本当に深層学習に勝てないのだろうか？

-> 実際に比較してどうなのか調べた

問題設定

入力：3秒に区切った歌声

特徴量：今回22次元に統一

分類器：Random Forest

問題：歌唱テクニックの10クラス識別

https://scrapbox.io/files/605169596a7abc00235ef698.png

特徴

hand-crafted

20次元MFCCとビブラート速さ・深さ，をそれぞれ時間平均

深層

https://scrapbox.io/files/605169bbfae3a5001c686cdb.png

個人的にご意見伺いたい点

深層学習とhand-crafted特徴量の併用はアリか？アリだとすればおすすめの方法は？

追加すると良さそうな特徴量，NNモデル

我々が考えている追加予定

hand-crafted：opensmileの特徴量，Wavelet scattering transform

深層：信号波形を入力するもの，f0を入力するもの

（知っていれば）他に使えそうなデータセット

〜〜〜〜〜

↓こちらにご意見・コメントをお願いします