マルチラベル音響イベント検出をサーベイ

#inbox

研究目的と大まかな内容を把握

以下が焦点

どのような目的で研究されているか > 研究目的

研究手法

データセット構築の方法

学習に何を使用するか

どのようにモデルを評価するか

マルチラベルモデルの評価方法を知りたい

新規性のある提案を出来るか

プライバシーなど

cf. https://gemini.google.com/app/7c418ae84364b02e

ここから良さげな論文を探す

Sound Event Detection: A Tutorialがとても良さそう

以前から懸念として考えていたマルチラベルの話もあるらしい

導入として読んでざっくり理解した方が良い

研究目的

DCASE 2018-2020

弱ラベルから強ラベルの学習

2018 > https://arxiv.org/abs/1807.10501

弱教師あり学習?

一定時間の音声に与えられたラベルから,どの時間まで音が鳴っているか判断する必要がある

この時間的境界のことを強ラベル,通常のラベルを弱ラベルとと呼ぶ

合成データは補助たり得るか

https://dcase.community/challenge2019/task-sound-event-detection-in-domestic-environments

時間的情報が付加された合成データを提供

実データと合成データとの間では領域の不一致という問題がある

その問題を踏まえたタスク設定らしい

重なり合う音のために音源分離と音響イベント検知

音響イベント検出, Sound Event Detection, SED

https://arxiv.org/abs/2007.03932

音源分離はasteroidなど参考になりそう

https://github.com/asteroid-team/asteroid

音楽用のモデルが紹介されていたがもっといいのがありそう

CrossNet unmix (XUMX)

Multi-Resolution CrossNet (MRX)

ノイズなどの対策を分類器の手前で処理する?

DCASE 2021-2024

2021: コロナで潰れた??

合成データと実データの併用

https://dcase.community/challenge2022/index

https://dcase.community/workshop2022/proceedings

合成データは強ラベル

実データは弱ラベル/未ラベル

事前学習済みモデルの利用が活発らしい

評価指標としてエネルギー効率も見られる

ソフトラベルの導入

01ではなく連続値のラベルを使用

ラベル付け,アノテーションの際に人の判断の確からしさを反映する?

https://arxiv.org/pdf/2302.14572

異種データかつ欠損ラベルのあるデータを用いた学習

データのさまざまな定義が異なる

片方のラベルがもう片方に存在しない

ドメインを抽象化し,汎化できるかを追求?

確かに現実的な設定だ

DCASE 2025

分類だけでなく分離,抽出を行う

音響イベント検知,分類に加えて以下を行う

音源分離

空間情報とあるがどういう意味なのだろう

評価指標

PSDS1/2

Polyphonic Sound Detection Score

1は時間的な局在化の精度

イベントの開始から終了までをきちんと判断できるかどうか?

2はイベントの分類

https://github.com/turpaultn/dcase20_task4/blob/master/README.md

https://github.com/j-bernardi/psds_eval

https://researchportal.tuni.fi/en/datasets/maestro-real-multi-annotator-estimated-strong-labels

論文を探す

DCASEを見た感じ,僕がパッと思いつく内容はおよそ検討されている

それらしき先行研究を探そう

SEDの研究を探す

イベント検知自体がマルチラベルな気がする

僕の検討はズレてたかも

与えられた音声に対して

それぞれの音声の開始と終了の時間を識別し

それら音声の内容を識別する

SEDは一つの音声に含まれる複数の音声に普通に対応できるのでは?

どうなの?

音響シミュレーションの方法を調査

ConformerからSqueezeFormerへのアーキテクチャの変更点について

ModernBERTに学ぶモダンなBERTの学習レシピ