環境音認識のコンペティションDCASE2020で世界1位を獲得しました
DCASEに参加したとのことだが,タスクは環境音認識らしい 本当?
Sound event detectionとなっているが,方向性が環境音,ということかな
音イベント検出は確かに役割的には環境音の分類といっても良いかも
Gulati, et.al., "Conformer: Convolution-augmented Transformer for Speech Recognition," in INTERSPEECH, 2020
これ自体がエンコーダになっていて,モデルが完結している
弱ラベル学習のため,入力のトークンを工夫した
2022とか2024などの手法を見て,今一度確認した方が良いかも
トークンについて触れている手法は特になかったと思う
その部分の議論はもう終わったということだろうか?
調べたら出てくるのかな
https://gyazo.com/f3fa64bdf8683c9b1601b80ce059425d