2025年のSED論文を読む
なぜかOpen reviewに接続できなくなった
まじか...
これらを読み,関連論文から有用な論文に飛ぶ?
ちょっと時間がかかる
2025/10/3時点の課題を考える
ICASSP
毎年のレポジトリ: https://ieeexplore.ieee.org/xpl/conhome/1000002/all-proceedings
Event Detectionで絞ると62件
https://ieeexplore.ieee.org/servlet/opac?punumber=10887540
その中で読みたい論文
Debiased Training For Semi-supervised Sound Event Detection
半教師あり学習につきもののバイアスを低減
MTDA-HSED: Mutual-Assistance Tuning and Dual-Branch Aggregating for Heterogeneous Sound Event Detection
複数のブランチの特徴を融合するモジュールを提案している
見た方が良い
Effective Pre-Training of Audio Transformers for Sound Event Detection
事前学習時に色々調整する
Prototype based Masked Audio Model for Self-Supervised Learning of Sound Event Detection
ガウス混合モデルからフレームレベルのラベルを生成?
StrongとWeekラベルの違いを忘れたけど,どちらかがフレームレベルだったと思う
それともCNNかRNNのどちらかがフレームレベルで学習するのだっけ?
音響イベント検出のtutorialを読んだ方が良さそう
Global Enhanced Frame Prompt Tuning for Sound Event Detection
Promptとあるのが非常に怪しいが,事前学習済みモデルの痛し痒しな点を改善すると言っているので,気になる
Graph-Enhanced Dual-Stream Feature Fusion with Pre-Trained Model for Acoustic Traffic Monitoring
特徴融合をフレームレベルでやっていて,その手法が気になる
FAF-Filt: Frequency-aware Fourier Filter for Sound Event Detection
周波数を使って解析
FDY-CRNNと同等の精度を少ないパラメータで出せるとしている
研究と関連して読みたい
Model-Driven Learning Approach for Robust WiFi-based Fall Detection
転倒をWifiのCSIで予測
動機や新規性,実験など様々な点で研究の参考になるだろう
Planing It by Ear: Convolutional Neural Networks for Acoustic Anomaly Detection in Industrial Wood Planers
木材の製材所における故障について,音で異常検知を行う
異常検知のユースケースとしてIntroに興味があるし,実際にどのようなデータをどう集めて,アノテーションし,どう学習し,精度を確認するのか,一連の方法全てに興味がある
UCIL: An Unsupervised Class Incremental Learning Approach for Sound Event Detection
継続学習に焦点を当てているっぽい?
教師なし学習であるクラス増分学習でラベルなしデータを活用する
そこまで関係はないが読みたい
Infant Cry Detection Using Causal Temporal Representation
アノテーションの少ないデータについてどうアプローチするか論じている
Exploring Text-Queried Sound Event Detection with Audio Source Separation
どうやってテキストクエリで音源分離を実現するか,なぜそうしてSEDをするのか,がよく分からない
結局何を目指しているのか含めて読みたい
Text-guided Device-realistic Sound Generation for Fiber-based Sound Event Classification
こちらもテキストを用いているらしい
環境音について,事前学習済みモデルが学習に利用したデータと,実際に録音される音声とで周波数特性が異なり,ドメインシフトが起こるらしい,というのが気になる
Formula-Supervised Sound Event Detection: Pre-Training Without Real Data
事前学習時に数式からデータを生成する手法
Sub-band Domain Multi-Hypothesis Acoustic Echo Canceler Based Acoustic Scene Analysis
全体的に何を言っているか分からない
FlashSR: One-step Versatile Audio Super-resolution via Diffusion Distillation
純粋になぜ必要なのかが気になる
Wasserstein Heterogeneous Graph Neural Networks for Uncertainty-Aware Anomaly Detection
GNNを異常検知に応用する
GNNが気になっているので,少し読みたいかも
A decade of DCASE: Achievements, practices, evaluations and future challenges
Concentrating Harder for Faster Audio Transformer
Transformerのためにトークンとラベルに関して何かやるっぽいのだが,今一何を言っているのかよく分からない
Two-Stream Spiking Neural Network for Event-based Action Recognition
イベントカメラが気になる
なぜSNNを使うのかも気になる
Interspeech
https://www.isca-archive.org/interspeech_2025/
Audio Event Detection and Classificationの6本は確定
https://www.isca-archive.org/interspeech_2025/schuster25_interspeech.html
いくつか参考にできそうなトピックがあるが,今回は見送り
今後読みたいものが多数あった
特にNeural Network Training MethodsとAnomalous Sound Detection