Automatic lyrics alignment and transcription in polyphonic music: Does background music help?
日付
2023/5/17
論文リンク
https://arxiv.org/pdf/1909.10200.pdf
文献情報
AUTOMATIC LYRICS ALIGNMENT AND TRANSCRIPTION IN POLYPHONIC MUSIC:
DOES BACKGROUND MUSIC HELP?
Chitralekha Gupta, Emre Yılmaz, Haizhou Li
ICASSP2020
要は何?
伴奏付きトラックの歌詞識別及び歌詞アライメント.
音響モデルに伴奏音の情報を加えて学習する有用性が示唆された.
問題意識と解決策
歌詞識別はMIRでもチャレンジングなタスク.
学習用クリーンデータの少なさ,話声とは異なる特徴,そして伴奏音の存在がネックとなっている.
歌声分離を前処理に用いることが考えられるが,そこでのエラーに歌詞識別の性能も左右されてしまう.
そこで,伴奏をノイズではなく,補助情報として用いる方法を考える.
先行研究によって,歌詞はあらゆる音楽情報(伴奏音)の影響を受けていることが示唆されており,補助情報として伴奏音を利用すれば,性能が上がる可能性がある.よってこれを検証する.
手法
1. 分離か伴奏付きか?
(当時)利用可能なデータセットとしてDALIがあり,これは伴奏音付きのデータである.
歌詞識別の音響モデルを学習するためのデータは歌声分離後のデータと伴奏付きのままのデータ,2通りが考えられる.
2. standard ASRか End-to-End ASRか?
standard ASR: 音響モデル,言語モデル,発音辞書のパイプライン処理
End-to-End ASR: 全てDNNモデルとして一体化 -> CTC-Attentionを用いた
また,言語モデルには2種類のN-gramモデルを用いる
in-domain LM: 学習データの歌詞のみで学習
general LM: 歌詞でない,公開テキストコーパスで学習
ジャンルとモデリングの関係
音素モデリング
ボーカルの伴奏音に対する相対音量がジャンルによって異なる.
シラブルの含有率がジャンルによって異なる
無音モデリング
ASRでも行われるnon-vocal segmentの学習は効果がある
この処理は,歌詞識別では伴奏音を学習することに相当 -> ここにジャンルの情報を与えることが効きそう
ジャンル情報の与え方
https://scrapbox.io/files/64639c7d7dbfc7001ce479cb.png
ジャンルごとの特徴(Characteristics)から,Broadclassとして3グループに分割.
実験とその結果
3つの実験を実施.
1) 伴奏なし(分離)vs. 伴奏あり
分離にはWaveUNetを利用.
2) Standard vs. E2E ASR
Standard ASR
MFCC+TDNN-F, LM(2種類を用意)kaldiを利用
E2E ASR
VGGフロントエンド+サブサンプリングありLSTMESPNetを利用
CTC Attentionデコード Attention -> coverage attentionを利用.
3) ジャンル適応音響モデル vs. ジャンル無視音響モデル
2つのジャンル適応のモデリングを検証
ジャンル適応無音モデル:イントロとアウトロをその学習に使う
ジャンル適応音素モデル:音素にジャンルラベルを付与する
テキストLM vs. 歌詞LMも比較
データセット
DALI dataset (version1?)を学習.約134時間.
Hansen, Mauch, Jamendoの評価データを用いて評価.
自動タグ付けhttps://github.com/thomas-bouvier/music-genre-recognition を用いてDALIにジャンルタグを付与.
アライメント結果
https://scrapbox.io/files/6463b8f13c1375001b88220f.png
伴奏あり,特にジャンル適応音素+無音モデリングがアライメントエラーを抑えている
とくにMauchデータセットにおいて顕著な改善.Mauchには間奏が長い曲が多く,そういった曲で間奏に音素を置いてしまうエラーを抑制できたと考察していた
歌詞識別結果
Standard vs. E2E
https://scrapbox.io/files/6463ba7d9582b1001b83288f.png
Standardの方がWERが小さく,性能が良い
音響モデル,発音辞書,言語モデルは別々にした方がよいことが示唆
ジャンルごとの性能
https://scrapbox.io/files/6463b9bf9fd4b4001b6fd7da.png
アライメント
アライメントエラーは,ジャンル適応無音+音素モデリングが全てのデータセットで220msを下回る -> 歌詞が既知である場合には音素の遷移を効率よく捉えられている
メタルの場合だと,歌声に比べ伴奏の音量が大きいのでエラーがどのジャンルよりも大きくなる
歌詞識別
ジャンルを与えない場合->ジャンル適応無音モデリングでは改善があった
伴奏音の考慮が効果あり
一方,ジャンル適応音素モデリングには顕著な改善はなし.
LM
歌詞LMの方が性能が良い.
既存モデルとの比較
各ベストの条件と先行研究を比較
https://scrapbox.io/files/64646f10e352f3001cc22c01.png
どのモデルよりもよかった.
デモ
https://lyrics-demo.droppages.com/
これも
https://github.com/chitralekha18/AutoLyrixAlign
ここで好きな曲を試すこともできる(実際にこのモデルかどうかは不明)
https://autolyrixalign.hltnus.org/
コメント
歌詞はその発話の形態も,歌詞の文章そのものも,音楽に大いに影響を受けているので,この方策は理にかなっていると思った.
とはいえ,分離をせずにこれだけ上手くいくのは単純に驚き.(歌声分離の品質がボトルネックだった説はあるが)
ジャンル適応モデルでアライメントがうまくいった要因としては,歌詞が既知というよりは,リズムの特徴も捉えているからというのもありそう.テンポルバートに歌い崩している曲でうまくいくのか興味がある
ジャンルの与え方はもう少し掘り下げる余地がありそう.ジャンルラベルを一緒に入力するとか.