2025/10/9の研究ログ

from SED-FLの実装ログ

2025/10/9の研究ログ

やること

昨日の結果を確認

メトリクス計算を実装

CMTの改良版 or 双方向版を実装 > 動作

other?

ちゃんと学習させてみよう

途中で止まる

CodeCarbonのログが出てから何も表示されず,よく分からない

evaluation=Trueにしてもスコアの保存のログが出ない

諸々修正したところ,スコア出力まではいった

埋め込みの調整部分にて,次元の問題が発生?

学習自体上手く動いていない

修正中

なんとか今日中に終わらせたい

もっと考えてから実行させた方が良いか?

今はイタズラに時間が過ぎており,結構勿体無い

一応片方の作業をしつつもう片方のCMT作業を進めているが,微妙な進め方ではある

やはり埋め込みの部分が治っていないみたい

より詳細なログを取る

さっき使っていた監視用のスクリプトの出力内容が結構良かった,と思っていたが別に他で十分出ていそう

移動中にCMTの論文を読んで発想を理解し,コードを修正できるようにしよう結局やってないな

collate_fnについて

単項目のバッチでは期待通りの動作

一部のデータかミニバッチで,labelsなどが文字列(string)

型が合わずtensor処理（torch.new / default_collate など）が失敗 > Collate error > 評価で Loss=inf ?

ここからどうするか

実装を綺麗にする

https://docs.wandb.ai/ja/tutorials/lightning/

https://lightning.ai/docs/pytorch/stable/starter/style_guide.html

? 元の実装をflowerに適合させる際に無理に調整しすぎでは

! 一度実装を見直し,可読性を高める

訓練を整理

最初に問題だったconcatや線形変換は修正できた

次元数も想定通り

関連するバッチの2番目の要素(リストの数え方で2)がlistのままでtensorになっていないという不具合ある

? 事前計算した埋め込みを何故かCRNNなどで直に扱っている可能性がある

本当はaudioだけ入力で受け取るはず

! 元実装を確認し,埋め込みをどう扱っているか見た方がいい

flowerのためにリスト化したデータがtensorにならずに来ている可能性は?

いずれにせよ処理の流れを追う必要がある

! 今家で回しており,そのログを見れば分かる

メトリクス計算を整理

? 訓練が正常終了していないのにスコアだけ算出されているのはおかしい

! 確認が必要

? メトリクス計算で何が問題になっているのか結局分からないまま

おそらく訓練自体が成功していないので評価ができる訳が無いのだと思う

! 訓練がどういう手順で実行されているか追う

CMTのアイデアを理解し実装を修正

あまりにもLLMの実装が遅い

! 核心のロジックを理解する

期待している実装か素早く判断できる

指示が正確になり,出力が改善され,効率が良くなる

! バージョン情報など重要な文脈渡す

既存実装のうちPytorchに関する情報を渡す

! instructionでassertを義務付ける

あまりにも妙なTensor操作が多い

何か対策はないだろうか

einopsを使うのは学習と実装コストが高いので避けたい

* assert文で期待した入力か確認する

元々LLMにそのあたりも任せていた

loggingしていたが,終了してくれた方がありがたい

頼んでもいいし,自分で実装してもいい

* tensorの中身を確認する方法を知る

torch-summary

on_before_forward

> Claude,Codexを検証

Copilotが上限を迎えるため

GPTの課金も視野

一周するのに35分かかってる

おかしい?

CPUだからそうなのか?

Errorではないがlossがinfになる

なぜだ?

schedulerの設定がおかしいかも

学習時間が伸びすぎ

なぜ?

ログを出しすぎなのかも

collate_fnの問題の部分 detect_item_structureの結果

[36m(ClientAppActor pid=94299)[0m STRUCTURE Element types: <class 'torch.Tensor'>, <class 'torch.Tensor'>, <class 'list'>, <class 'str'>, <class 'torch.Tensor'>, <class 'torch.Tensor'>

やはりデータセットから渡される構造ではlistとstrがある

LLMに任せすぎたのが良くなかったらしい

多分途中で投げやりになっていたときがあったが,あれが良くなかった

実装を見るとbatchの中身がなぜか5 > 6に増えていたり,色々と無茶苦茶

一体どんな実装をさせてしまったのだろう

明日でコードの見直しを終わらせたい

どこを見る?

差異を見る

そもそもPytorch Lightningがどういう手順で動くか見る

バッチの中身に関わるコードを見る

最初から実装をやり直した方が良いかも

今の実装を参考に,おかしいところを治しながら実装し直すのが一番いいんじゃない?

データローダ周りを修正する

分割が悪さしているのか,よく分からない

悪そうな部分が多すぎる. 一つずつ直そう

fast_dev_runの結果,損失がNaNになっていたらしい

無理に実装した特徴量融合関係でおかしなことになっていそう

元の実装を参考にしたはずなのに,なぜだ

バッチがおかしいだけではなさそう

新しく実装したデータ分割のコードで詰まっている?

最初から実装し直した方が早いんじゃ

スパゲティと化している