2025-04-11
へーこんなのが
画像モデル何もわからない
新しい技術に追いつこうったって無理にも程があるのでゆっくりやる
前学期はLLMを学んでいたけど、規模がラージすぎて中身をどうこうするような話ではなかったので実装と実験が難しかった
パラメータ多すぎない浅いCNNならライブラリ使って実装できそう
あと先に目次を投げて「この内容だとどうやって遊ぶ(実験する)か?」を先に聞いておくのは良かったかも
やっぱ言語モデルは難しい方なのか?nonica.icon
本に載ってるコードは豊富でもできることは限られていた
ChatGPT.icon
数億~数十億パラメータ級のモデルを扱うには、GPUメモリや学習時間の確保が必須。個人環境や学内のGPUリソースではバッチサイズやエポック数を十分に確保できず、学習が安定しなかったり途中で止まったりしがちでした。
しかもファインチューニングでも数時間~数十時間単位の実験になるため、最終週の限られた時間では「やってみて結果を見る」サイクルを何度も回せず、検証の深さが足りませんでした。
Hugging Face Transformersなど高レベルAPIは便利ですが、カスタムで手を入れたい部分(アテンションのスコア計算や勾配フローの可視化など)に触るにはかなりのフレームワーク理解が必要。
さらに大規模モデルだとサブモジュールごとに分散配置やパイプライン並列化の知識も求められ、個人プロジェクトでは工数が膨れ上がりました。
日記ページ作ったら被ってて↑日付変わってすぐ書いてたんだった
今週長かった
ひとまず乙
にゃーん