BeatKAN An Efficient and Drum-Attuned Beat Tracking Method Using Kolmogorov-Arnold Networks

https://scrapbox.io/files/67fba53a5ced661d3f44ff75.png

論文リンク

https://ieeexplore.ieee.org/document/10889959

文献情報

BeatKAN: An Efficient and Drum-Attuned Beat Tracking Method Using Kolmogorov-Arnold Networks

ICASSP 2025

Z. Zhang et al. (Fudan Univ.)

要は何？

ビートトラッキング問題にKANを利用したネットワークを適用し、MLPを用いるNNよりも低パラメータ量で同等以上の精度を実現＋ドラム音の分離を利用

問題意識と解決策

ビートトラッキングを解く研究

様々な音楽情報処理タスクのうち最も基礎的なタスクで、多数の応用ほか、他の自動採譜や音楽構造認識の上流タスクとしてももちいられることがある

いままではMLPベースのモデルで解かれてきた

データセットが少なく、DNNで解くレベルの複雑なタスクではある

MLPにはいくつかの問題がある

パラメタ効率性、高次元データの表現、活性化関数のアドホックな選択

→KANモデルと、ドラム音を分離しデータに加えるDAにより解決

関連研究

とくにあげてなかった

手法

DNNアーキテクチャ

https://scrapbox.io/files/67fbac567bb0fab29ced85fa.png

メルスペクトログラム

81次元

ネットワーク

Conv KANフロントエンド

KAN-TCN

yamamoto.icon TCNは時間方向に適用する1次元Conv+dilationのスタック

→2者はKANConvを利用

KANLinear

DBN後処理（madmom？）

KANについて

Kolmogorov-Arnold表現理論に沿ったもの

任意の連続な多変量関数は単変量関数およびその和で表せる

つまり、n次の多変量関数$ f(x_1,...,x_n)をこう表現できる

$ f(x_1,...,x_n = \sum^{2n+1}_{q=1}{\Phi_q} (\sum^{n}_{p=1}{\phi_{q,p}(x_p)}))

yamamoto.icon 2層構造と解釈できる（単変量関数を入力する層、その和をとる層）

$ \phi_{q,p}：単変量関数（0,1->R）ここではB-スプラインが用いられる

$ \Phi_q：単変量関数（R->R）

p,qはそれぞれ入力と出力のユニット数

KANはこれを拡張し、多層化

KAN論文よりhttps://arxiv.org/abs/2404.19756　

https://scrapbox.io/files/67fba8efd923eaffec125cd6.png

KANはMLPの持つ問題を解決

MLPが学習可能な線形変換＋固定の活性化関数による非線形変換を行うのに対し、KANは学習可能な活性化関数で計算する

ConvKAN：KANをCNNに拡張

カーネルの要素もB-スプライン（学習可能）に置き換え

学習可能な要素$ \phi: φ=w1*spline(x) + w2*silu(x) としたCNN

https://scrapbox.io/files/67fbb291098f38d46839010b.png

推論速度を高めるために、RBFガウスカーネルを用い、3次元のスプラインを推論するようにする

yamamoto.icon ？あまり次元が高いと表現力はあがるが推論速度がおちるっぽい？推論時ではなく学習時の話だけではないのか？

Drum-attuend mechanism

ドラムだけ分離したデータも学習に加える

人はリズムをとるとき、曲中ドラムに注目し聴いているという性質を利用

yamamoto.icon ほんまに？？

実験とその結果

データセット

https://scrapbox.io/files/67fbb724b07d12845e2e3021.png

Harmonix, HJDB, RWCをすべて学習用

Ballroom, Hainsworth,SMCは8-fold cross-validation

GTZANはテスト専用

drum-attuned条件のときはHTDemucsで分離したドラムトラックの振幅平均値0.05以上のデータを加える

学習条件

10秒をランダムチャンク

24kHzでサンプリング

BCEwithlogitsロス

adam

TCNは5層、dim64次元

結果：精度

https://scrapbox.io/files/67fbb708de653f5a0e72adaf.png

sotaのspectnt-tcnやBeat-transformerに迫る性能

通常のTCNよりも高性能

結果：パラメータ・速度

https://scrapbox.io/files/67fbb95a699e809f165ae238.png

MLPベースのTCNよりもパラメータが少なく軽量

収束速度も1/4ほど

KANは学習に時間がかかる/安定しないという報告もちらほらあがっているが、この文献に関してはむしろ既存のMLPモデルより収束が速いのが興味深い。ビートの周期性の学習という観点からすればむしろKANの方が向いているから、という考え方もできる？

ドラムが入っていない曲の精度は落ちそうな気がした。ASAPとかピアノonlyのデータセットだと精度でなそう。downbeat推定も入れると精度落ちる気がするので、downbeat推定とのマルチタスクの時への適用はドラムだけに着目しない別の枠組みが必要になる気がする。→HPSSをしてデータに加える、くらいの方がよさそう？（cf. https://ismir2023program.ismir.net/poster_150.html）

separationをするというアイデア自体を新規性に入れられても、感は感じた（既知ではあるので）

（この論文とは関係ない話）そもそもビートトラッキングの性能SoTAを議論する上でもうF値やCMLt,AMLtがビートトラッキングの性能を測るのに向いていない気もしている。Spec-TNTもBeat Transformerも3年前。サチっているんでは？100％にならない原因はどこかを調べる研究があってもいいんでは、と思ったりはする。