BeatKAN An Efficient and Drum-Attuned Beat Tracking Method Using Kolmogorov-Arnold Networks
https://scrapbox.io/files/67fba53a5ced661d3f44ff75.png
論文リンク
https://ieeexplore.ieee.org/document/10889959
文献情報
BeatKAN: An Efficient and Drum-Attuned Beat Tracking Method Using Kolmogorov-Arnold Networks
ICASSP 2025
Z. Zhang et al. (Fudan Univ.)
要は何?
ビートトラッキング問題にKANを利用したネットワークを適用し、MLPを用いるNNよりも低パラメータ量で同等以上の精度を実現+ドラム音の分離を利用
問題意識と解決策
ビートトラッキングを解く研究
様々な音楽情報処理タスクのうち最も基礎的なタスクで、多数の応用ほか、他の自動採譜や音楽構造認識の上流タスクとしてももちいられることがある
いままではMLPベースのモデルで解かれてきた
データセットが少なく、DNNで解くレベルの複雑なタスクではある
MLPにはいくつかの問題がある
パラメタ効率性、高次元データの表現、活性化関数のアドホックな選択
→KANモデルと、ドラム音を分離しデータに加えるDAにより解決
関連研究
とくにあげてなかった
手法
DNNアーキテクチャ
https://scrapbox.io/files/67fbac567bb0fab29ced85fa.png
メルスペクトログラム
81次元
ネットワーク
Conv KANフロントエンド
KAN-TCN
yamamoto.icon TCNは時間方向に適用する1次元Conv+dilationのスタック
→2者はKANConvを利用
KANLinear
DBN後処理(madmom?)
KANについて
Kolmogorov-Arnold表現理論に沿ったもの
任意の連続な多変量関数は単変量関数およびその和で表せる
つまり、n次の多変量関数$ f(x_1,...,x_n)をこう表現できる
$ f(x_1,...,x_n = \sum^{2n+1}_{q=1}{\Phi_q} (\sum^{n}_{p=1}{\phi_{q,p}(x_p)}))
yamamoto.icon 2層構造と解釈できる(単変量関数を入力する層、その和をとる層)
$ \phi_{q,p}:単変量関数(0,1->R)ここではB-スプラインが用いられる
$ \Phi_q:単変量関数(R->R)
p,qはそれぞれ入力と出力のユニット数
KANはこれを拡張し、多層化
KAN論文よりhttps://arxiv.org/abs/2404.19756 
https://scrapbox.io/files/67fba8efd923eaffec125cd6.png
KANはMLPの持つ問題を解決
MLPが学習可能な線形変換+固定の活性化関数による非線形変換を行うのに対し、KANは学習可能な活性化関数で計算する
ConvKAN:KANをCNNに拡張
カーネルの要素もB-スプライン(学習可能)に置き換え
学習可能な要素$ \phi: φ=w1*spline(x) + w2*silu(x) としたCNN
https://scrapbox.io/files/67fbb291098f38d46839010b.png
推論速度を高めるために、RBFガウスカーネルを用い、3次元のスプラインを推論するようにする
yamamoto.icon ?あまり次元が高いと表現力はあがるが推論速度がおちるっぽい?推論時ではなく学習時の話だけではないのか?
Drum-attuend mechanism
ドラムだけ分離したデータも学習に加える
人はリズムをとるとき、曲中ドラムに注目し聴いているという性質を利用
yamamoto.icon ほんまに??
実験とその結果
データセット
https://scrapbox.io/files/67fbb724b07d12845e2e3021.png
Harmonix, HJDB, RWCをすべて学習用
Ballroom, Hainsworth,SMCは8-fold cross-validation
GTZANはテスト専用
drum-attuned条件のときはHTDemucsで分離したドラムトラックの振幅平均値0.05以上のデータを加える
学習条件
10秒をランダムチャンク
24kHzでサンプリング
BCEwithlogitsロス
adam
TCNは5層、dim64次元
結果:精度
https://scrapbox.io/files/67fbb708de653f5a0e72adaf.png
sotaのspectnt-tcnやBeat-transformerに迫る性能
通常のTCNよりも高性能
結果:パラメータ・速度
https://scrapbox.io/files/67fbb95a699e809f165ae238.png
MLPベースのTCNよりもパラメータが少なく軽量
収束速度も1/4ほど
コメント
KANは学習に時間がかかる/安定しないという報告もちらほらあがっているが、この文献に関してはむしろ既存のMLPモデルより収束が速いのが興味深い。ビートの周期性の学習という観点からすればむしろKANの方が向いているから、という考え方もできる?
ドラムが入っていない曲の精度は落ちそうな気がした。ASAPとかピアノonlyのデータセットだと精度でなそう。downbeat推定も入れると精度落ちる気がするので、downbeat推定とのマルチタスクの時への適用はドラムだけに着目しない別の枠組みが必要になる気がする。→HPSSをしてデータに加える、くらいの方がよさそう?(cf. https://ismir2023program.ismir.net/poster_150.html)
separationをするというアイデア自体を新規性に入れられても、感は感じた(既知ではあるので)
(この論文とは関係ない話)そもそもビートトラッキングの性能SoTAを議論する上でもうF値やCMLt,AMLtがビートトラッキングの性能を測るのに向いていない気もしている。Spec-TNTもBeat Transformerも3年前。サチっているんでは?100%にならない原因はどこかを調べる研究があってもいいんでは、と思ったりはする。