音響イベント検出における半教師あり学習を考える
from 2025/7/18の発表の構想を再考する
https://gemini.google.com/app/3a2c2efc56207dd6
半教師あり連合学習のレポート
疑似ラベリングと一貫正則化のどちらかを適用すればいいわけではないかも
自己教師あり学習で作られた,事前学習済みモデルが基盤となる可能性がある
音の場合はBERTが該当するか?
BERTはラベルがついていたような
音響イベント検出にどう使えばいいのか見当もつかない
そもそも音響イベント検出の理解が浅い
関連論文にそんなのあったかな?
なさそうなら大人しくFixmatchでも使うかな
半教師あり学習のレポート
A Hybrid System of Sound Event Detection Transformer and Frame-wise Model for DCASE 2022 Task 4に何か書いてあるみたい
CRNNとTransformer組み合わせたらすごかったとしかなくないか?
Audio Spectrogram Transformer (AST) のような事前学習済みモデルという話があったみたい
BEATs: https://proceedings.mlr.press/v202/chen23ag/chen23ag.pdf
BEATs: Audio Pre-Training with Acoustic Tokenizers
Bidirectional Encoder representation from Audio Transformers
という基盤モデルがあるらしい
基盤モデルをMean Teacherのような半教師あり学習でファインチューニング
僕が掲げている方針と一致
Mean-Teacher以上に優れた方法があれば採用したい
Mean-Teacherはこれ?: https://arxiv.org/abs/1703.01780
FixMatchとか?
https://arxiv.org/abs/2001.07685
SOUND EVENT DETECTION SYSTEM USING FIXMATCH FOR DCASE 2022 CHALLENGE TASK 4
https://dcase.community/documents/challenge2022/technical_reports/DCASE2022_Kim_94_t4.pdf
元は画像関係なため,音声用に修正
オープンセット半教師あり学習(Open-Set SSL, OSSL)
分布外のデータを除外する
OpenMatch: https://arxiv.org/pdf/2105.14148
オープンワールド半教師あり学習(Open-World SSL)
分布外のデータを新しいクラスとして学習する
Open-World Semi-Supervised Learning
https://cs.stanford.edu/people/jure/pubs/orca-iclr22.pdf
https://github.com/snap-stanford/orca
TRAILER
表現崩壊(Representation Collapse)に対処
https://openaccess.thecvf.com/content/CVPR2024/html/Xiao_Targeted_Representation_Alignment_for_Open-World_Semi-Supervised_Learning_CVPR_2024_paper.html
LegoGCD
破滅的忘却の対処
https://arxiv.org/html/2501.05272v2
Parameter-Efficient Fine-Tuning for Foundation Modelsも参考になる?
半教師あり学習以外のアプローチもある
基盤モデルの使用
これは音響イベント検出でも有用そう
ファインチューニングで結局半教師あり学習をすることになるか?
! 先行研究を読みたい
拡散モデルによる合成データ生成
半教師あり学習の抱える課題をFLで増幅しないよう工夫が必要
https://notebooklm.google.com/notebook/4cc8e572-0e14-4450-9b73-58b4006cdd46
FLは各種異質性対策
ローカルは半教師あり学習の手法の工夫が必要
基盤モデルのファインチューニングに半教師あり学習をするとあるが本当なのか?
一度論文を読もう