Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming
日付
2023/8/22
https://scrapbox.io/files/64e4c39fd4e3b2001bf10c89.png
論文リンク
https://arxiv.org/abs/2211.01317
文献情報
Low-Resource Music Genre Classification with Cross-Modal Neural Model Reprogramming
Yun-Ning Hung, Chao-Han Huck Yang, Pin-Yu Chen, Alexander Lerch
ICASSP 2023
要は何?
low-resourceな音楽分類問題に対し,
他ドメインでの大規模事前学習モデル+Neural Model Reprogrammingを適用したもの
問題意識と解決策
NNのポテンシャルを引き出すには大規模なデータセットが必要だが,音楽はデータセットの構築を大規模に行うのは難しい.
そこでTransfer lerarningの適用が考えられるが,いくつか問題もある.
タスク固有の情報が得られない,(ex: audio taggingのデータは音楽のキーの情報がない等)
タスク特化のモデルに負ける
yamamoto.icon だったらそれはそれでいいのでは...?という気もするが.
リソースを食う
など.
そこでタスクへの適応としてNeural model reprogramming(NMR)を考える.
関連研究
JukeMIR Codified audio language modeling learns useful representations for music information retrieval
VGGish
I. Goodfellow, J. Shlens, and C. Szegedy, “Explaining and harnessing adversarial examples,” in Proc. ICLR,
2015. 学習可能な摂動を加える
G. F. Elsayed, I. Goodfellow, and J. Sohl-Dickstein, “Adversarial reprogramming of neural networks,” in Proc.
ICLR, 2018. 学習可能なノイズを入力に加える
R. Vinod, P.-Y. Chen, and P. Das, “Reprogramming language models for molecular representation learning,”
arXiv preprint arXiv:2012.03460, 2020. 自然言語処理のモデルを細胞の識別の表現学習に利用
C.-H. H. Yang, Y.-Y. Tsai, and P.-Y. Chen, “Voice2series: Reprogramming acoustic models for time series classification,” in Proc. ICML, 2021, pp. 11 808–11 819. 音響のモデルを時系列データの識別に利用
手法
そもそもNMRとは
https://scrapbox.io/files/64e4c64025fda5001c03518f.png
Parameter-Efficient Learning (PEL) for Speech and Language: Adapters, Prompts, and Reprogramming, ICASSP 2023 tutorial より
学習可能なノイズをターゲットのノイズに加えてソースの学習済みモデルに入力,
その出力をターゲットタスクの出力に変換するLabel mappingをさらに通す.
これは単純な1対1マッピングではなく,Many-to-oneにするほうが性能がよいことがわかっている.
ほかのチューニング手法との違い
https://scrapbox.io/files/64e4c6556c0ac4001b96ce4f.png
本研究では
これまで音楽分類においてNMRによる適応は行われていないため,まず通常のNMRの有効性を検証.Voice2Seriesに従い,生波形の入力を用いる.
その入力に学習可能ノイズをかけ,モデルへの入力とする.
$ x' = \mathcal{H}(x;\theta) := x+\theta ($ \mathcal{H}, \thetaはそれぞれノイズかけを実現する変換と,パラメータ)
これを Input-independent NMRとして II-NMR条件とする.
https://scrapbox.io/files/64e4cb39c9f8f0001c4c1d0a.png
本研究では,それに加え, Input-dependent NMRを提案.
この理由は,音楽信号は他の音よりも複雑な構造をしているため.その加えるべきノイズも入力音に依存しているはずである.ということから
ID-NMR条件:ノイズの中間特徴への適用として,CNNによる変換を施す
https://scrapbox.io/files/64e4cb5648c8e6001bef5a72.png
ID-NMRの懸念点は,逆伝播時モデル全体に勾配を計算するので学習が遅くなること.
また,出力に近い側にReprogrammingを施す悪影響があるかもしれない.
以上から,skip-connectionで変換を実現する条件も検証する.これをIDS-NMRとする.
https://scrapbox.io/files/64e4cc28bb6f21001cba44cc.png
ソースモデル
SpeechATT
Voice2Seriesでも用いられていたモデル.google speech command datasetで事前学習
1秒の音声のみを扱うため,音楽もそれ合わせる.(元は30秒)
AST
General purposeな音の分類に使われるモデル.
10秒.それに合わせる.
実験とその結果
データセット 
GTZAN
10ジャンル,各ジャンル30秒のクリップを100個含む.
比較条件
ResNet (BL-CNN条件とする)
GTZANで通常のファインチューニングをしたAST (BL-FT-AST条件とする)
GTZANでLinear-probing(最終層を512次元MLPに変えた)したAST(BL-R-AST)
GTZANでLinear-probing(最終層を512次元MLPに変えた)したVGGish(BL-R-VGGish)
学習
100エポック学習し,その中でvalid-setに対してベストをマークしたモデルをピックアップ.
Adam 学習率:1e-4
Label mapping: Speech ATT ではn=2,ASTではn=5とした
yamamoto.icon n is 何(論文内に記述なし)
5回異なるシードで実験
input-dependentのCNNは,BL-CNNとパラメータ数が同じになるように,3x3のカーネル及び136チャンネルのCNNを用いた.
yamamoto.icon この文章が重複するtypoがあった
結果
Reprogrammingの違い
https://scrapbox.io/files/64e4ced106cae7001b6b3eb9.png
Input-dependentな方法が従来のNMRを上回った.
SpeechATTよりASTのほうが性能が良かった
1秒だとジャンル識別には短すぎるため?
パラメータ数とドメインの距離の影響も考えられる
skip connectionの効果も確認した
既存手法との比較
https://scrapbox.io/files/64e4ceda4fd5f8001c5328d0.png
ASTのprobingおよびIDS-NMRが既存の特化手法の最良(SampleCNN)よりも良かった
IDS-NMRは通常のFine-tuningよりもよい性能.
IDS-NMRをImage-NetとAudioSetで同時に学習させた場合にはAudioSet単体の学習モデルより精度がよかった(85.1%)???
yamamoto.icon このtableのaudio+visionってImageNetもAudioSetも学習させてるんでは??
パラメータと学習時間
GeForce RTX 2080を使用
https://scrapbox.io/files/64e4cee06c0ac4001b971f49.png
通常のファインチューニングに対し,学習可能なパラメータは少ない.
Skip connectionを利用すると約40%の学習時間に押さえられる.
コメント
面白い試み.このでかいモデルをすこしだけ変えるアプローチはさらにMIRでは流行りそう.
Input-dependent,これAdapterでは(Label-mappingはついているけども)
構成はわかりやすいがところどころ?になる記述が多い印象.