マルチラベル音響イベント検出をサーベイ
研究目的と大まかな内容を把握
以下が焦点
研究手法
新規性のある提案を出来るか
プライバシーなど
ここから良さげな論文を探す
以前から懸念として考えていたマルチラベルの話もあるらしい
導入として読んでざっくり理解した方が良い
研究目的
DCASE 2018-2020
弱ラベルから強ラベルの学習
弱教師あり学習?
一定時間の音声に与えられたラベルから,どの時間まで音が鳴っているか判断する必要がある
この時間的境界のことを強ラベル,通常のラベルを弱ラベルとと呼ぶ
合成データは補助たり得るか
時間的情報が付加された合成データを提供
実データと合成データとの間では領域の不一致という問題がある
その問題を踏まえたタスク設定らしい
重なり合う音のために音源分離と音響イベント検知
音楽用のモデルが紹介されていたがもっといいのがありそう
CrossNet unmix (XUMX)
Multi-Resolution CrossNet (MRX)
ノイズなどの対策を分類器の手前で処理する?
DCASE 2021-2024
2021: コロナで潰れた??
合成データと実データの併用
合成データは強ラベル
実データは弱ラベル/未ラベル
事前学習済みモデルの利用が活発らしい
評価指標としてエネルギー効率も見られる
ソフトラベルの導入
01ではなく連続値のラベルを使用
ラベル付け,アノテーションの際に人の判断の確からしさを反映する?
異種データかつ欠損ラベルのあるデータを用いた学習
データのさまざまな定義が異なる
片方のラベルがもう片方に存在しない
ドメインを抽象化し,汎化できるかを追求?
確かに現実的な設定だ
DCASE 2025
分類だけでなく分離,抽出を行う
音響イベント検知,分類に加えて以下を行う
音源分離
空間情報とあるがどういう意味なのだろう
評価指標
PSDS1/2
Polyphonic Sound Detection Score
1は時間的な局在化の精度
イベントの開始から終了までをきちんと判断できるかどうか?
2はイベントの分類
論文を探す
DCASEを見た感じ,僕がパッと思いつく内容はおよそ検討されている それらしき先行研究を探そう
イベント検知自体がマルチラベルな気がする
僕の検討はズレてたかも
与えられた音声に対して
それぞれの音声の開始と終了の時間を識別し
それら音声の内容を識別する
SEDは一つの音声に含まれる複数の音声に普通に対応できるのでは?
どうなの?