音響イベント検出モデルの良さげな論文を集める
音響イベント検出モデルの良さげな論文を集める
関連
成果はそういう手法があるんだな〜程度
加速度系の時系列データを使用しているが,音声とだいぶ違う?
モデル構造
CRNNでのフレーム単位での分析
Transformerの利用
イベントの種類と時間的境界を直接予測
Transformer + CRNN
Audio Spectrogram Transformer (AST) +CRNNという構成がある
ASTは例であって,他のVisionTransformerなどでも良いはず
CNNで局所的な特徴を捉え,Transformerで全体の関係性を捉える
Transformerはイベント単位で学習
CNNはフレーム単位で学習
両者の学習結果を融合させるみたい
> CRNN + Transformerを理解する 事前学習済みモデル(Transformer系) + CNN + GRU
エンコーダとして事前学習済みモデルを利用
特徴抽出のため使用
モデル自体は学習せず,パラメータを固定
デコーダもついているらしい
時間と周波数の依存関係を学習する
出力がSEDと音源方向推定の二つ
これめっっっちゃ説明が細かい...気がする
良さげに見えるが判断がつかない
学習済みモデルの利用
従来の音響イベント検出は,フレーム?内で同じイベントが重複すると一つにまとめる
動物の音声を検出する際に困るので改良した~みたいな話
フレーム内の同じイベントも区別して検出
見守りでは必要ないかも
特徴量抽出のために使用
leverages SSL pretrained transformer features)
モデルの巨大化が問題らしい
リアルタイム性を重視する研究もある
蒸留もあった
先輩の研究に似ている
モデルを小型化する際に良さそう