マルチラベル音響イベント検出をサーベイ
#inbox
研究目的と大まかな内容を把握
以下が焦点
どのような目的で研究されているか > 研究目的
研究手法
データセット構築の方法
学習に何を使用するか
どのようにモデルを評価するか
マルチラベルモデルの評価方法を知りたい
新規性のある提案を出来るか
プライバシーなど
cf. https://gemini.google.com/app/7c418ae84364b02e
ここから良さげな論文を探す
Sound Event Detection: A Tutorialがとても良さそう
以前から懸念として考えていたマルチラベルの話もあるらしい
導入として読んでざっくり理解した方が良い
研究目的
DCASE 2018-2020
弱ラベルから強ラベルの学習
2018 > https://arxiv.org/abs/1807.10501
弱教師あり学習?
一定時間の音声に与えられたラベルから,どの時間まで音が鳴っているか判断する必要がある
この時間的境界のことを強ラベル,通常のラベルを弱ラベルとと呼ぶ
合成データは補助たり得るか
https://dcase.community/challenge2019/task-sound-event-detection-in-domestic-environments
時間的情報が付加された合成データを提供
実データと合成データとの間では領域の不一致という問題がある
その問題を踏まえたタスク設定らしい
重なり合う音のために音源分離と音響イベント検知
音響イベント検出, Sound Event Detection, SED
https://arxiv.org/abs/2007.03932
音源分離はasteroidなど参考になりそう
https://github.com/asteroid-team/asteroid
音楽用のモデルが紹介されていたがもっといいのがありそう
CrossNet unmix (XUMX)
Multi-Resolution CrossNet (MRX)
ノイズなどの対策を分類器の手前で処理する?
DCASE 2021-2024
2021: コロナで潰れた??
合成データと実データの併用
https://dcase.community/challenge2022/index
https://dcase.community/workshop2022/proceedings
合成データは強ラベル
実データは弱ラベル/未ラベル
事前学習済みモデルの利用が活発らしい
評価指標としてエネルギー効率も見られる
ソフトラベルの導入
01ではなく連続値のラベルを使用
ラベル付け,アノテーションの際に人の判断の確からしさを反映する?
https://arxiv.org/pdf/2302.14572
異種データかつ欠損ラベルのあるデータを用いた学習
データのさまざまな定義が異なる
片方のラベルがもう片方に存在しない
ドメインを抽象化し,汎化できるかを追求?
確かに現実的な設定だ
DCASE 2025
分類だけでなく分離,抽出を行う
音響イベント検知,分類に加えて以下を行う
音源分離
空間情報とあるがどういう意味なのだろう
評価指標
PSDS1/2
Polyphonic Sound Detection Score
1は時間的な局在化の精度
イベントの開始から終了までをきちんと判断できるかどうか?
2はイベントの分類
https://github.com/turpaultn/dcase20_task4/blob/master/README.md
https://github.com/j-bernardi/psds_eval
https://researchportal.tuni.fi/en/datasets/maestro-real-multi-annotator-estimated-strong-labels
論文を探す
DCASEを見た感じ,僕がパッと思いつく内容はおよそ検討されている
それらしき先行研究を探そう
SEDの研究を探す
イベント検知自体がマルチラベルな気がする
僕の検討はズレてたかも
与えられた音声に対して
それぞれの音声の開始と終了の時間を識別し
それら音声の内容を識別する
SEDは一つの音声に含まれる複数の音声に普通に対応できるのでは?
どうなの?
音響シミュレーションの方法を調査
ConformerからSqueezeFormerへのアーキテクチャの変更点について
ModernBERTに学ぶモダンなBERTの学習レシピ