卒論におけるSEDの工夫を考える

from 卒論の研究計画書を書く

cf. ベースライン

まとめたもの > 卒論で行うSEDの工夫

DCASE 2024の手法を融合し,単一時から精度向上を図る

Geminiに投げたら,各手法の融合アプローチを提案された

https://gemini.google.com/app/9001b98e981d7ec8

SEDの工夫の方針を考える

DCASE 2024を参考に工夫を考える

工夫の具体化

cf. DCASE 2024の上位を見て方法を知る

アーキテクチャはベースラインを軸にする

現在はDCASE 2024しか参考にしていないが,必要ならICASSPなど見よう

FLを踏まえて工夫を検討する, 以下に簡単にまとめる:

ベースラインを軸にCross-AttentionとAuxiliary Decoderを採用

データ拡張を行いつつ,半教師あり学習手法としてConfident Mean Teacherを採用

ベースラインを動かした後,各手法を適用して精度を確認

DCASE 2024の結果と比べ,精度向上の余地があればこの方向性で進める

ダメそうならモデルの小型化を目指す

Deep Researchしよう

https://gemini.google.com/app/56fc608973e33290

本題と別に気になったところ

Deformable Large Kernel Attention Convolution (D-LKAC)

Cross-attention関係で提案された

モデルとしてHTS-ATやEfficient Conformerが紹介された

両方ともアーキテクチャの提案

DiffSED: 拡散モデルの応用が研究されている

Detect Any Sound Model: あらゆる音を対象にする研究がある

モデルアーキテクチャについて

エンコーダとして二つブランチを用意

意味的 > BEATsかSSASTを利用

ノイズに対して頑健な意味的特徴を学習

音を意味のある単位に分割 > トークンを作成

トークンの一部をマスクしてモデルに与えて予測

ノイズを除いた本質的な意味合いについて学習が進む

音イベントの内容を扱う

時間的 > CNNを利用

FDY Convの組み込みは先送り

局所的特徴を捉える

いつ音が発生したかを学習する

音イベントの開始や終了のタイミングを扱う

それらを融合: 複数回のクロスアテンション

時間デコーダ

GRU > Efficient Conformer かBiMambaに置き換え

? モデルが複雑になってしまうのでは?

! 全部比較する

x 長距離の依存関係をモデル化ってなんだ?

抜け落ちる時間的な特徴を捉えるとかそういうこと?

そうっぽい

Transformerなどは全体を一気に見るので,音声の各部分の関係性を学習できる

従来モデルは学習時,音声を最初から処理するので,最後の方を処理するときに最初を忘れてしまっていた

らしい

確かにLTSMよりTransformerの方が良いという話は聞く

イベント同士の関係性をより学習できるということ

複数のイベントが時間的にどのような関係を持っているか

文脈を把握する

> BiMambaとは?

https://github.com/Leopold2333/Bi-Mamba4TS

状態空間モデル

Conformerは入力長に対し計算時間が二乗で増えるのに対し,こちらは線形に増加する

音響イベント検知に使えるのか?

時系列データに使えるからいけるとは思うが

調整が必要そう

Conformerの実装を参考にすれば行けるか?

学習手法

データ拡張: 拡散モデル

補助タスクのイベント検出モデルと共同学習

ノイズ耐性をつけるのが目的

データ拡張以外の手法として提案された

フレーム及びクリップ単位でイベントの起こった数を記録

あるいは音源分離を前段に挟むアプローチもある

Confidence-based Semi-supervised Acoustic Event Detectionを採用

? これConfident Mean Teacherじゃダメなのか?

参考ソースが古いので微妙そう

! 改めてサーベイが必要

実装計画

上記モデルを実装

FLのためプルーニングや蒸留を実施

FLフレームワークを実装

匿名化データ印象: INTERSPEECH 2021

新しいイベントクラスをグローバルに共有する

評価: 精度,通信コスト,プライバシー,公平性