卒論におけるSEDの工夫を考える
工夫の具体化
ベースラインを動かした後,各手法を適用して精度を確認
本題と別に気になったところ
Deformable Large Kernel Attention Convolution (D-LKAC)
Cross-attention関係で提案された
モデルとしてHTS-ATやEfficient Conformerが紹介された
両方ともアーキテクチャの提案
DiffSED: 拡散モデルの応用が研究されている
Detect Any Sound Model: あらゆる音を対象にする研究がある
モデルアーキテクチャについて
エンコーダとして二つブランチを用意
ノイズに対して頑健な意味的特徴を学習
音を意味のある単位に分割 > トークンを作成
トークンの一部をマスクしてモデルに与えて予測
ノイズを除いた本質的な意味合いについて学習が進む
音イベントの内容を扱う
局所的特徴を捉える
いつ音が発生したかを学習する
音イベントの開始や終了のタイミングを扱う
それらを融合: 複数回のクロスアテンション
時間デコーダ
GRU > Efficient Conformer かBiMambaに置き換え
抜け落ちる時間的な特徴を捉えるとかそういうこと?
そうっぽい
Transformerなどは全体を一気に見るので,音声の各部分の関係性を学習できる
従来モデルは学習時,音声を最初から処理するので,最後の方を処理するときに最初を忘れてしまっていた
らしい
確かにLTSMよりTransformerの方が良いという話は聞く
イベント同士の関係性をより学習できるということ
複数のイベントが時間的にどのような関係を持っているか
文脈を把握する
状態空間モデル
Conformerは入力長に対し計算時間が二乗で増えるのに対し,こちらは線形に増加する
音響イベント検知に使えるのか?
時系列データに使えるからいけるとは思うが
調整が必要そう
Conformerの実装を参考にすれば行けるか?
学習手法
データ拡張: 拡散モデル
補助タスクのイベント検出モデルと共同学習
ノイズ耐性をつけるのが目的
データ拡張以外の手法として提案された
フレーム及びクリップ単位でイベントの起こった数を記録
あるいは音源分離を前段に挟むアプローチもある
Confidence-based Semi-supervised Acoustic Event Detectionを採用
? これConfident Mean Teacherじゃダメなのか? 参考ソースが古いので微妙そう
実装計画
上記モデルを実装
FLのためプルーニングや蒸留を実施
FLフレームワークを実装
匿名化データ印象: INTERSPEECH 2021
新しいイベントクラスをグローバルに共有する
評価: 精度,通信コスト,プライバシー,公平性