Automatic lyrics alignment and transcription in polyphonic music: Does background music help? - matchsurvey

Automatic lyrics alignment and transcription in polyphonic music: Does background music help?

日付

2023/5/17

論文リンク

https://arxiv.org/pdf/1909.10200.pdf

文献情報

AUTOMATIC LYRICS ALIGNMENT AND TRANSCRIPTION IN POLYPHONIC MUSIC:

DOES BACKGROUND MUSIC HELP?

Chitralekha Gupta, Emre Yılmaz, Haizhou Li

ICASSP2020

要は何？

伴奏付きトラックの歌詞識別及び歌詞アライメント．

音響モデルに伴奏音の情報を加えて学習する有用性が示唆された．

問題意識と解決策

歌詞識別はMIRでもチャレンジングなタスク．

学習用クリーンデータの少なさ，話声とは異なる特徴，そして伴奏音の存在がネックとなっている．

歌声分離を前処理に用いることが考えられるが，そこでのエラーに歌詞識別の性能も左右されてしまう．

そこで，伴奏をノイズではなく，補助情報として用いる方法を考える．

先行研究によって，歌詞はあらゆる音楽情報（伴奏音）の影響を受けていることが示唆されており，補助情報として伴奏音を利用すれば，性能が上がる可能性がある．よってこれを検証する．

手法

1. 分離か伴奏付きか？

（当時）利用可能なデータセットとしてDALIがあり，これは伴奏音付きのデータである．

歌詞識別の音響モデルを学習するためのデータは歌声分離後のデータと伴奏付きのままのデータ，2通りが考えられる．

2. standard ASRか End-to-End ASRか？

standard ASR: 音響モデル，言語モデル，発音辞書のパイプライン処理

End-to-End ASR: 全てDNNモデルとして一体化 -> CTC-Attentionを用いた

また，言語モデルには2種類のN-gramモデルを用いる

in-domain LM: 学習データの歌詞のみで学習

general LM: 歌詞でない，公開テキストコーパスで学習

ジャンルとモデリングの関係

音素モデリング

ボーカルの伴奏音に対する相対音量がジャンルによって異なる．

シラブルの含有率がジャンルによって異なる

無音モデリング

ASRでも行われるnon-vocal segmentの学習は効果がある

この処理は，歌詞識別では伴奏音を学習することに相当 -> ここにジャンルの情報を与えることが効きそう

ジャンル情報の与え方

https://scrapbox.io/files/64639c7d7dbfc7001ce479cb.png

ジャンルごとの特徴（Characteristics）から，Broadclassとして3グループに分割．

実験とその結果

3つの実験を実施．

1) 伴奏なし（分離）vs. 伴奏あり

分離にはWaveUNetを利用．

2) Standard vs. E2E ASR

Standard ASR

MFCC+TDNN-F, LM（2種類を用意）kaldiを利用

E2E ASR

VGGフロントエンド＋サブサンプリングありLSTMESPNetを利用

CTC Attentionデコード Attention -> coverage attentionを利用．

3) ジャンル適応音響モデル vs. ジャンル無視音響モデル

2つのジャンル適応のモデリングを検証

ジャンル適応無音モデル：イントロとアウトロをその学習に使う

ジャンル適応音素モデル：音素にジャンルラベルを付与する

テキストLM vs. 歌詞LMも比較

データセット

DALI dataset （version1？）を学習．約134時間．

Hansen, Mauch, Jamendoの評価データを用いて評価．

自動タグ付けhttps://github.com/thomas-bouvier/music-genre-recognition を用いてDALIにジャンルタグを付与．

アライメント結果

https://scrapbox.io/files/6463b8f13c1375001b88220f.png

伴奏あり，特にジャンル適応音素+無音モデリングがアライメントエラーを抑えている

とくにMauchデータセットにおいて顕著な改善．Mauchには間奏が長い曲が多く，そういった曲で間奏に音素を置いてしまうエラーを抑制できたと考察していた

歌詞識別結果

Standard vs. E2E

https://scrapbox.io/files/6463ba7d9582b1001b83288f.png

Standardの方がWERが小さく，性能が良い

音響モデル，発音辞書，言語モデルは別々にした方がよいことが示唆

ジャンルごとの性能

https://scrapbox.io/files/6463b9bf9fd4b4001b6fd7da.png

アライメント

アライメントエラーは，ジャンル適応無音+音素モデリングが全てのデータセットで220msを下回る -> 歌詞が既知である場合には音素の遷移を効率よく捉えられている

メタルの場合だと，歌声に比べ伴奏の音量が大きいのでエラーがどのジャンルよりも大きくなる

歌詞識別

ジャンルを与えない場合->ジャンル適応無音モデリングでは改善があった

伴奏音の考慮が効果あり

一方，ジャンル適応音素モデリングには顕著な改善はなし．

LM

歌詞LMの方が性能が良い．

既存モデルとの比較

各ベストの条件と先行研究を比較

https://scrapbox.io/files/64646f10e352f3001cc22c01.png

どのモデルよりもよかった．

デモ

https://lyrics-demo.droppages.com/

これも

https://github.com/chitralekha18/AutoLyrixAlign

ここで好きな曲を試すこともできる（実際にこのモデルかどうかは不明）

https://autolyrixalign.hltnus.org/

コメント

歌詞はその発話の形態も，歌詞の文章そのものも，音楽に大いに影響を受けているので，この方策は理にかなっていると思った．

とはいえ，分離をせずにこれだけ上手くいくのは単純に驚き．（歌声分離の品質がボトルネックだった説はあるが）

ジャンル適応モデルでアライメントがうまくいった要因としては，歌詞が既知というよりは，リズムの特徴も捉えているからというのもありそう．テンポルバートに歌い崩している曲でうまくいくのか興味がある

ジャンルの与え方はもう少し掘り下げる余地がありそう．ジャンルラベルを一緒に入力するとか．