Self-Supervised Music Source Separation Using Vector-Quantized Source Category Estimates
https://scrapbox.io/files/66a50ce40249d8001c292cf1.png
日付
2024/7/27
論文リンク
https://arxiv.org/abs/2311.13058
文献情報
Self-Supervised Music Source Separation Using Vector-Quantized Source Category Estimates
Marco Pasini, Stefan Lattner, George Fazekas
NeurIPS 2023 workshop
要は何?
VQ-VAEを用いた自己教師あり音楽音源分離
問題意識と解決策
音楽音源分離は,音源分離の中でも重要なサブ問題.
現状の教師ありアプローチではデータ量が不足しており,更には限られた楽器種類でしか分離が実現できていない.(多くがMUSDBのvocal, drum, bass, otherの4カテゴリ)
その限界を打破するために教師なし,半教師あり,自己教師あり学習手法が提案されてきた.
特に分離対象の楽器音をモデルにクエリとして与えるN-shot手法が近年トレンド.
しかし,実際の分離対象音はエフェクトや異なる楽器など,楽器には多様性があり,常にクエリとして正しい音を与えられるわけではない.本来はそのような外部情報なしに楽器音を分離できるのが理想である.
本研究は推論時に音クエリ不要の,自己教師あり学習に基づく音楽音源分離を提案する.
学習時にはクエリベース音源分離を行う.モデルはVQによって離散値の埋め込みを持つ.
コードブックサイズには楽器の総クラス数Nを用いることで,各コードブックがその楽器に相当する埋め込みとなるように学習する.
関連研究
教師あり音楽音源分離
Encoder -Decoder型アーキテクチャ.各ステムの情報が与えられる
自己教師あり音楽音源分離
permutation-invariant training 
PAC-Hubert 楽器音のクラスタリングあり 
yamamoto.icon ではないような?解釈間違い?
ブラインド音源分離
クエリベース音源分離
手法
実験とその結果
コメント