2025/10/9の研究ログ
やること
昨日の結果を確認
メトリクス計算を実装
CMTの改良版 or 双方向版を実装 > 動作
other?
ちゃんと学習させてみよう
途中で止まる
CodeCarbonのログが出てから何も表示されず,よく分からない
evaluation=Trueにしてもスコアの保存のログが出ない
諸々修正したところ,スコア出力まではいった
埋め込みの調整部分にて,次元の問題が発生?
学習自体上手く動いていない
修正中
なんとか今日中に終わらせたい
もっと考えてから実行させた方が良いか?
今はイタズラに時間が過ぎており,結構勿体無い
一応片方の作業をしつつもう片方のCMT作業を進めているが,微妙な進め方ではある
やはり埋め込みの部分が治っていないみたい
より詳細なログを取る
さっき使っていた監視用のスクリプトの出力内容が結構良かった,と思っていたが別に他で十分出ていそう
移動中にCMTの論文を読んで発想を理解し,コードを修正できるようにしよう 結局やってないな
collate_fnについて
単項目のバッチでは期待通りの動作
一部のデータかミニバッチで,labelsなどが文字列(string)
型が合わずtensor処理(torch.new / default_collate など)が失敗 > Collate error > 評価で Loss=inf ?
ここからどうするか
実装を綺麗にする
? 元の実装をflowerに適合させる際に無理に調整しすぎでは 訓練を整理
最初に問題だったconcatや線形変換は修正できた
次元数も想定通り
関連するバッチの2番目の要素(リストの数え方で2)がlistのままでtensorになっていないという不具合ある
? 事前計算した埋め込みを何故かCRNNなどで直に扱っている可能性がある 本当はaudioだけ入力で受け取るはず
! 元実装を確認し,埋め込みをどう扱っているか見た方がいい flowerのためにリスト化したデータがtensorにならずに来ている可能性は?
いずれにせよ処理の流れを追う必要がある
メトリクス計算を整理
? 訓練が正常終了していないのにスコアだけ算出されているのはおかしい ? メトリクス計算で何が問題になっているのか結局分からないまま おそらく訓練自体が成功していないので評価ができる訳が無いのだと思う
CMTのアイデアを理解し実装を修正
あまりにもLLMの実装が遅い
期待している実装か素早く判断できる
指示が正確になり,出力が改善され,効率が良くなる
既存実装のうちPytorchに関する情報を渡す
! instructionでassertを義務付ける あまりにも妙なTensor操作が多い
何か対策はないだろうか
einopsを使うのは学習と実装コストが高いので避けたい
元々LLMにそのあたりも任せていた
loggingしていたが,終了してくれた方がありがたい
頼んでもいいし,自分で実装してもいい
torch-summary
on_before_forward
Copilotが上限を迎えるため
GPTの課金も視野
一周するのに35分かかってる
おかしい?
CPUだからそうなのか?
Errorではないがlossがinfになる
なぜだ?
schedulerの設定がおかしいかも
学習時間が伸びすぎ
なぜ?
ログを出しすぎなのかも
collate_fnの問題の部分 detect_item_structureの結果
やはりデータセットから渡される構造ではlistとstrがある
LLMに任せすぎたのが良くなかったらしい
多分途中で投げやりになっていたときがあったが,あれが良くなかった
実装を見るとbatchの中身がなぜか5 > 6に増えていたり,色々と無茶苦茶
一体どんな実装をさせてしまったのだろう
明日でコードの見直しを終わらせたい
どこを見る?
差異を見る
そもそもPytorch Lightningがどういう手順で動くか見る
バッチの中身に関わるコードを見る
最初から実装をやり直した方が良いかも
今の実装を参考に,おかしいところを治しながら実装し直すのが一番いいんじゃない?
データローダ周りを修正する
分割が悪さしているのか,よく分からない
悪そうな部分が多すぎる. 一つずつ直そう
fast_dev_runの結果,損失がNaNになっていたらしい
無理に実装した特徴量融合関係でおかしなことになっていそう
元の実装を参考にしたはずなのに,なぜだ
バッチがおかしいだけではなさそう
新しく実装したデータ分割のコードで詰まっている?
最初から実装し直した方が早いんじゃ
スパゲティと化している