2025/10/8の研究ログ
from SED-FLの実装 ログ
2025/10/8の研究ログ
2025/10/7の研究ログの続き
埋め込みの作成は一晩待ったので完了した
あとは埋め込みを使ったコードを書けば良い
調査 > 計画 > 実装をしつこく反復する
埋め込み利用は治ったっぽいが,相変わらずパス関係で問題が起きまくっている
flowerのシミュレーションがややこしいのと,相対パスを使いすぎ
他の問題も解決する
ベースラインのエラーを直す
KeyError
2025/8/31の研究ログにあった通り,埋め込み計算っぽいので待つ
埋め込みは終わったが治らない
なぜだ?
音声の長さがあるduaration.tsvと,フレームかクリップかわからないが正解ラベルを持つtsvとの間で不整合が生じていたからかも
ただしGeminiの指摘のため誤りの可能性あり
audio_idのkeyerror
片方は生成されており,存在しないファイルを扱えない
resample_data_generate_durationsで音声長のtsvファイルを生成している
そのせいでラベルと齟齬が生じている
共通の音声だけ使うように修正する
train_pretrained.pyに--test|eval_from_checkpointとckptファイルのパスをつければOK
https://gyazo.com/378e3ab786239e220830778ef66b9ecc
全然実装が終わらない
そろそろやばい
エラーが直らない
ERROR:flower.client.client_app:Training failed: mat1 and mat2 shapes cannot be multiplied (128x513 and 896x128)
ERROR:flower.client.client_app:Evaluation failed: mat1 and mat2 shapes cannot be multiplied (32x513 and 896x128)
次元数のうち特徴?はCNNが512,BEATsは384で,合計が896になる
Improving Audio Spectrogram Transformers for Sound Event Detection Through Multi-Stage Trainingの図を見るとCNNは分かる
https://gemini.google.com/app/46d2e758602fa7a5
おそらく,CNNの出力からしておかしい
周波数次元が1ではなく4になっている
治ったっぽい
デバッグログを消して動かそう
それと別にConfident Mean Teacherを実装する
試しに精度も見る
しかし実装があっているのか全然わからない
後で時間を取って確認しないと
実行は終わったが,精度は微妙だった > /research-custard/CMTと通常のdcase2024task4の比較
おそらく実装が良くない
PDSD2の精度だけ上がっていた
寝る前までに一度修正して,睡眠中に走らせたい