卒論のサーベイ方針 - main-custard

卒論のサーベイ方針

卒論のサーベイをする

先行研究を知る

以前書いた: 卒論は音響イベント検出と異常検知の両方が必要かも

今欲しい情報は何?

マルチラベル音響イベント検出 > マルチラベル音響イベント検出をサーベイ

より現実的なイベント検出を実現する

現実の音環境はPolyphonic

複数の音が同時に発生する

MonophonicではなくPolyphonicに対応したい

そのためにマルチラベル分類を考える

ラベルが足りないとか異種データとか > DCASE 2024に色々ある

音響シーン分類ではなく音響イベント検出をやりたい

シーン分類はある音声クリップにラベルを割り当てるだけ

イベント検出はいつ,何が起きたかを予測/分類する

音を用いた行動認識モデルの知識蒸留による軽量化および精度向上は多分シーン分類しか考えてない

音を用いて何をするのか一切触れてない

モデル説明を見ると,やっているのは音響シーン分類に見える

決してイベント検出ではない

行動認識で必要なのはシーンではなくイベント検出だと思う

検出+異常検知は精度が出そうだと思っている

この辺りも調べたい

そもそも,音による行動認識の先行研究が見当たらない

蒸留とBERTの先行研究ばかりに見える

先行研究がたくさんあるようだし,マルチクラスなイベント検出を考える

時系列データにおける異常検知の手法

イベント検出した後

https://gemini.google.com/app/7c418ae84364b02e

音による異常検知

複数の異常云々は抜きで考える

時間的文脈から異常か判断する研究を探す

音によるマルチラベル分類

同時になる音を正しく識別するにはマルチラベル分類が必要だと思う

簡単な実装を行う傍ら,参考になりそうな論文を探す

複数の音響イベントを識別

この手の先行研究が手持ちにない

探して読んで,理解を深める