音響イベント検出モデルの良さげな論文を集める
from 2025/7/15
音響イベント検出モデルの良さげな論文を集める
関連
音響イベント検出における半教師あり学習を考える
Federated Learning for IoMT-Enhanced Human Activity Recognition with Hybrid LSTM-GRU Networksをざっくり読む
成果はそういう手法があるんだな〜程度
加速度系の時系列データを使用しているが,音声とだいぶ違う?
AAL * SEDにおける少し前の機械学習モデル
モデル構造
CRNNでのフレーム単位での分析
https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=88ce5b83685ca747cdd679837f98f8c5e4bae425
https://www.researchgate.net/publication/334413702_Polyphonic_Sound_Event_and_Sound_Activity_Detection_A_Multi-task_approach
Transformerの利用
イベントの種類と時間的境界を直接予測
Multi-Scale Features for Transformer Model to Improve the Performance of Sound Event Detection
Transformer + CRNN
2024年タスクのベースラインと論文が参考になりそう > DCASE 2024
Audio Spectrogram Transformer (AST) +CRNNという構成がある
ASTは例であって,他のVisionTransformerなどでも良いはず
A Hybrid System of Sound Event Detection Transformer and Frame-wise Model for DCASE 2022 Task 4
CNNで局所的な特徴を捉え,Transformerで全体の関係性を捉える
Transformerはイベント単位で学習
CNNはフレーム単位で学習
両者の学習結果を融合させるみたい
> CRNN + Transformerを理解する
Improving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Training
事前学習済みモデル(Transformer系) + CNN + GRU
Self Training and Ensembling Frequency Dependent Networks with Coarse Prediction Pooling and Sound Event Bounding Boxes
https://arxiv.org/abs/2406.15725
学習済みのBEATsとASTを固定して使用
エンコーダとして事前学習済みモデルを利用
特徴抽出のため使用
モデル自体は学習せず,パラメータを固定
デコーダもついているらしい
時間と周波数の依存関係を学習する
出力がSEDと音源方向推定の二つ
ASiT-CRNN: A method for sound event detection with fine-tuning of self-supervised pre-trained ASiT-based model
Mean-Teacherを使用?
これめっっっちゃ説明が細かい...気がする
BEATsなどとの比較もされてる
良さげに見えるが判断がつかない
DCASE 2024の論文
MULTI-ITERATION MULTI-STAGE FINE-TUNING OF TRANSFORMERS FOR SOUND EVENT DETECTION WITH HETEROGENEOUS DATASETS
https://arxiv.org/pdf/2407.12997
SEMI-SUPERVISED SOUND EVENT DETECTION BASED ON PRETRAINED MODELS FOR DCASE 2024 TASK 4
https://dcase.community/documents/challenge2024/technical_reports/DCASE2024_Chen_35_t4.pdf
SELF TRAINING AND ENSEMBLING FREQUENCY DEPENDENT NETWORKS WITH COARSE PREDICTION POOLING AND SOUND EVENT BOUNDING BOXES
https://dcase.community/documents/challenge2024/technical_reports/DCASE2024_Nam_38_t4.pdf
FMSG-JLESS SUBMISSION FOR DCASE 2024 TASK4 ON SOUND EVENT DETECTION WITH HETEROGENEOUS TRAINING DATASET AND POTENTIALLY MISSING LABELS
https://arxiv.org/abs/2407.00291
学習済みモデルの利用
Robust detection of overlapping bioacoustic sound events
https://arxiv.org/html/2503.02389
従来の音響イベント検出は,フレーム?内で同じイベントが重複すると一つにまとめる
動物の音声を検出する際に困るので改良した~みたいな話
フレーム内の同じイベントも区別して検出
見守りでは必要ないかも
BEATsをエンコーダで使っている
特徴量抽出のために使用
leverages SSL pretrained transformer features)
モデルの巨大化が問題らしい
リアルタイム性を重視する研究もある
https://pmc.ncbi.nlm.nih.gov/articles/PMC11946438/
量子化で良さそう: https://arxiv.org/abs/2507.07877
蒸留もあった
Dual Knowledge Distillation for Efficient Sound Event Detection
https://arxiv.org/abs/2402.02781
先輩の研究に似ている
モデルを小型化する際に良さそう