卒論で行うSEDの工夫
from
卒論で何をどのくらい理解するか考える
卒論で行うSEDの工夫
ベースライン通り,意味的,時間的ブランチをエンコーダとして用意
意味的 >
BEATs
,時間的 >
CNN
Cross-Attention
を利用
時間デコーダとしてGRU,
Conformer
,
Mamba
を検討
Auxiliary Decoder
を採用
> より本質的な手法に時間を割きたい
データ拡張を行いつつ,半教師あり学習手法として
Confident Mean Teacher
を採用
ベースラインを動かした後,各手法を適用して精度を確認
DCASE 2024
の結果と比べ,精度向上の余地があればこの方向性で進める
ダメそうなら
モデルの小型化
を目指す
大学院試験
で指摘された点について >
卒論を再考する
システムの具体的なユースケースやそれに基づく要件に従って手法を考える必要がある
?
学習に使う時間が長大でも良いのであれば,
二段階学習
も可能ではないか