環境音認識のコンペティションDCASE2020で世界1位を獲得しました
環境音認識のコンペティションDCASE2020で世界1位を獲得しました
論文: CONFORMER-BASED SOUND EVENT DETECTION WITH SEMI-SUPERVISED LEARNING AND DATA AUGMENTATION
DCASEに参加したとのことだが,タスクは環境音認識らしい
本当?
Sound event detectionとなっているが,方向性が環境音,ということかな
音イベント検出は確かに役割的には環境音の分類といっても良いかも
Conformerを採用
TransformerにConvolutionモジュールを加えて精度を向上
Gulati, et.al., "Conformer: Convolution-augmented Transformer for Speech Recognition," in INTERSPEECH, 2020
これ自体がエンコーダになっていて,モデルが完結している
GRUなどRNNを通してない
ラベルなしデータ活用のためにMean-Teacherを採用
弱ラベル学習のため,入力のトークンを工夫した
【インターンレポート】環境音認識のための弱ラベル学習に関する研究
2022とか2024などの手法を見て,今一度確認した方が良いかも
トークンについて触れている手法は特になかったと思う
その部分の議論はもう終わったということだろうか?
調べたら出てくるのかな
ICASSPのSED関係の論文を探した方が参考になるかも?
https://gyazo.com/f3fa64bdf8683c9b1601b80ce059425d