🦊グラボを4090に換装したらComfyUIでCUDA error: an illegal memory access was encounteredが出るようになった
頻出度
?
発生するタイミング
大してGPUを使わせる作業をしていないのにCUDA error: an illegal memory access was encounteredが出る
ずっとデフォルトのworkflowだと思ってたらバッチサイズ66になってた()nomadoor.icon
ただ、ComfyUIは超高負荷の処理を無理やり動かすの得意なはずで、RTX4070tiではこんなエラーみたことない
一度発生すとPCを再起動するしかない
イベントビューアーで確認するとnvlddmkmが出ている
原因
断片化?
解決(した)方法
Windows + Ctrl + Shift + Bでグラフィックドライバを再起動
NVIDIA アプリで最大電源を90%にする
1024×1024 バッチサイズ65でも落ちずに生成できるようになったnomadoor.icon
VRAM故障してるかもしれない(泣)
msi Afterburnerでコアクロックを-400MHz メモリクロックを -200MHz ダウンクロックしたら安定するようになった
グラボがOCモデルで端から少しクロック数高めになってたのが良くなかったんだろうか
結構XX90番台はピーク電力を食いがち(なので電力が瞬間的に足りてないかも?)なので真面目にアンダークロックのほうが色々安定したりする…(そもそもワットパフォーマンス的には7割くらいの電力でも1割も性能落ちなかったハズなので…)morisoba65536.icon
+1nomadoor.icon
生成が速いことより、安定してVRAM24GB使えるほうがタスカルタスカル…
やっぱだめそう
以下余談
ハードウェアが壊れてないか確認
電源はCorsair RM1000x Shift十分余裕ある
OCCTを使ったVRAMテストもパス
95%で回してたせいでエラーが出ていなかった?
100%で回したらエラーが出るようになった
以降70%とかで回してもエラーが出る
FF15ベンチまわしっぱでも問題なし
KSamplerに入った瞬間にエラー出すかフリーズするもののComfyUIだけで、PCごと落ちるわけではない
ちなみにsd-webui-forge-classicでも何度か生成を繰り返すと落ちた
意味なかったあれこれ
torch再インストール
--lowvram / --reserve-vram / --disable-smart-memory / --disable-cuda-malloc / --force-fp32
50シリーズ版の新しいポータブル版に変更
https://github.com/comfyanonymous/ComfyUI/discussions/6643Nvidia 50 Series (Blackwell) support thread: How to get ComfyUI running on your new 50 series GPU
DDU使ってドライバ除去しての、最新nvidiaドライバクリーンインストール
TdrDelayを10sに
BIOS(Asrock)でC.A.M.オン
メモリ抜き差ししてグラボと相性確認
OCCTを使ったVRAMテスト
グラボを支える(というかPCを横置きにする)
https://www.reddit.com/r/StableDiffusion/comments/1bgtez9/psa_if_youre_having_unexplainable_issues_with/PSA: If You're Having Unexplainable Issues With Your GPU Like TDR error or BSODs...
Nvidiaコントロールパネル
CUDA システムメモリフォールバック : フォールバックを優先
電源管理モード : パフォーマンス最大化を優先
これはやってもいいかもしれないnomadoor.icon
setx DISABLE_ADDMM_CUDA_LT 1
換装を完走した感想nomadoor.icon
換装してドライバ再インストールして数日は動いていた
一度このエラーが出てから簡単に落ちるようになった
途中で一回雑に4070tiに戻したらなんの問題もなく動いたし、ComfyUIと4090の組み合わせはもうド安定のハズなのでComfyUI側に原因があるとはあんまり思ってなかった
4090でフルパワーを出そうとするとなんか引っかかるんですかね…
#🦊よくあるエラー ?