卒論で行うSEDの工夫
from 卒論で何をどのくらい理解するか考える
卒論で行うSEDの工夫
ベースライン通り,意味的,時間的ブランチをエンコーダとして用意
意味的 > BEATs,時間的 > CNN
Cross-Attentionを利用
時間デコーダとしてGRU,Conformer,Mambaを検討
Auxiliary Decoderを採用 > より本質的な手法に時間を割きたい
データ拡張を行いつつ,半教師あり学習手法としてConfident Mean Teacherを採用
ベースラインを動かした後,各手法を適用して精度を確認
DCASE 2024の結果と比べ,精度向上の余地があればこの方向性で進める
ダメそうならモデルの小型化を目指す
大学院試験で指摘された点について > 卒論を再考する
システムの具体的なユースケースやそれに基づく要件に従って手法を考える必要がある
? 学習に使う時間が長大でも良いのであれば,二段階学習も可能ではないか