卒論におけるSEDの工夫を考える
from 卒論の研究計画書を書く
cf. ベースライン
まとめたもの > 卒論で行うSEDの工夫
DCASE 2024の手法を融合し,単一時から精度向上を図る
Geminiに投げたら,各手法の融合アプローチを提案された
https://gemini.google.com/app/9001b98e981d7ec8
SEDの工夫の方針を考える
DCASE 2024を参考に工夫を考える
工夫の具体化
cf. DCASE 2024の上位を見て方法を知る
アーキテクチャはベースラインを軸にする
現在はDCASE 2024しか参考にしていないが,必要ならICASSPなど見よう
FLを踏まえて工夫を検討する, 以下に簡単にまとめる:
ベースラインを軸にCross-AttentionとAuxiliary Decoderを採用
データ拡張を行いつつ,半教師あり学習手法としてConfident Mean Teacherを採用
ベースラインを動かした後,各手法を適用して精度を確認
DCASE 2024の結果と比べ,精度向上の余地があればこの方向性で進める
ダメそうならモデルの小型化を目指す
Deep Researchしよう
https://gemini.google.com/app/56fc608973e33290
本題と別に気になったところ
Deformable Large Kernel Attention Convolution (D-LKAC)
Cross-attention関係で提案された
モデルとしてHTS-ATやEfficient Conformerが紹介された
両方ともアーキテクチャの提案
DiffSED: 拡散モデルの応用が研究されている
Detect Any Sound Model: あらゆる音を対象にする研究がある
モデルアーキテクチャについて
エンコーダとして二つブランチを用意
意味的 > BEATsかSSASTを利用
ノイズに対して頑健な意味的特徴を学習
音を意味のある単位に分割 > トークンを作成
トークンの一部をマスクしてモデルに与えて予測
ノイズを除いた本質的な意味合いについて学習が進む
音イベントの内容を扱う
時間的 > CNNを利用
FDY Convの組み込みは先送り
局所的特徴を捉える
いつ音が発生したかを学習する
音イベントの開始や終了のタイミングを扱う
それらを融合: 複数回のクロスアテンション
時間デコーダ
GRU > Efficient Conformer かBiMambaに置き換え
? モデルが複雑になってしまうのでは?
! 全部比較する
x 長距離の依存関係をモデル化ってなんだ?
抜け落ちる時間的な特徴を捉えるとかそういうこと?
そうっぽい
Transformerなどは全体を一気に見るので,音声の各部分の関係性を学習できる
従来モデルは学習時,音声を最初から処理するので,最後の方を処理するときに最初を忘れてしまっていた
らしい
確かにLTSMよりTransformerの方が良いという話は聞く
イベント同士の関係性をより学習できるということ
複数のイベントが時間的にどのような関係を持っているか
文脈を把握する
> BiMambaとは?
https://github.com/Leopold2333/Bi-Mamba4TS
状態空間モデル
Conformerは入力長に対し計算時間が二乗で増えるのに対し,こちらは線形に増加する
音響イベント検知に使えるのか?
時系列データに使えるからいけるとは思うが
調整が必要そう
Conformerの実装を参考にすれば行けるか?
学習手法
データ拡張: 拡散モデル
補助タスクのイベント検出モデルと共同学習
ノイズ耐性をつけるのが目的
データ拡張以外の手法として提案された
フレーム及びクリップ単位でイベントの起こった数を記録
あるいは音源分離を前段に挟むアプローチもある
Confidence-based Semi-supervised Acoustic Event Detectionを採用
? これConfident Mean Teacherじゃダメなのか?
参考ソースが古いので微妙そう
! 改めてサーベイが必要
実装計画
上記モデルを実装
FLのためプルーニングや蒸留を実施
FLフレームワークを実装
匿名化データ印象: INTERSPEECH 2021
新しいイベントクラスをグローバルに共有する
評価: 精度,通信コスト,プライバシー,公平性