卒論のモデルをどうするか
#2025/8/7
考えをまとめよう
候補を考える
最有力候補は CRNN + Transformer
CNNと事前学習済みモデルの出力を融合
RNN,具体的にはGRUなどを通す
弱ラベルと強ラベルを出力
あるいはConformer+RNN
周波数NN
CRNN + Conformer
気になるところ
最新のモデルアーキテクチャは何?
本当にCRNN+Transformerは主流なのか
元々,本当にCRNN+Transformerで良いのか?を確認するのが調査の目的
より良い構成はないのか?
ひとまず複雑度が増しても良い
パッと思いつくのは拡散モデル入れるとか
事前学習済みモデルはConformerの派生なのか
事前学習済みモデルの中身を理解してない
完全な理解はいらないが,比較のために大まかな構成を知っておく必要がある
BEATsなどに新しい方法のヒントがあるかもしれない
新しいアーキテクチャは提案できないか?
何から手をつければいいかよくわかっていない
そこの調査から始めて,パラシュート学習法で勉強していけば良いかも