音響イベント検出における半教師あり学習を考える
疑似ラベリングと一貫正則化のどちらかを適用すればいいわけではないかも
自己教師あり学習で作られた,事前学習済みモデルが基盤となる可能性がある
音の場合はBERTが該当するか?
BERTはラベルがついていたような
音響イベント検出にどう使えばいいのか見当もつかない
そもそも音響イベント検出の理解が浅い
関連論文にそんなのあったかな?
なさそうなら大人しくFixmatchでも使うかな
CRNNとTransformer組み合わせたらすごかったとしかなくないか?
という基盤モデルがあるらしい
基盤モデルをMean Teacherのような半教師あり学習でファインチューニング
僕が掲げている方針と一致
Mean-Teacher以上に優れた方法があれば採用したい
FixMatchとか?
元は画像関係なため,音声用に修正
オープンセット半教師あり学習(Open-Set SSL, OSSL)
分布外のデータを除外する
オープンワールド半教師あり学習(Open-World SSL)
分布外のデータを新しいクラスとして学習する
Open-World Semi-Supervised Learning
TRAILER
表現崩壊(Representation Collapse)に対処
LegoGCD
破滅的忘却の対処
半教師あり学習以外のアプローチもある
基盤モデルの使用
これは音響イベント検出でも有用そう
ファインチューニングで結局半教師あり学習をすることになるか?
拡散モデルによる合成データ生成
半教師あり学習の抱える課題をFLで増幅しないよう工夫が必要
FLは各種異質性対策
ローカルは半教師あり学習の手法の工夫が必要
基盤モデルのファインチューニングに半教師あり学習をするとあるが本当なのか?
一度論文を読もう