2025-08
<- 2025-07
2025-08-22
2025-08-21
Intel iGPU の SR-IOV を使う
これって Kubernetes の Device Plugin 書いて遊べるんじゃないか
あるのかよ https://github.com/intel/intel-resource-drivers-for-kubernetes/blob/f3dee4fbbcf767b253132eed25ac73f85914a84b/doc/gpu/README.md
2025-08-17
How to handle the raw chain of thought in gpt-oss
Tool call の連鎖が終わったら Thinking の中身は削除するのまじか
2025-08-11
ollama には確かに SWA がない
理論的には gpt-oss は2倍、gemma3 は5倍遅いはず
2025-08-09
https://github.com/docker/model-runner/blob/1c13e4fc61d6e3040efe0c5d5f731893911b5139/pkg/inference/backends/llamacpp/llamacpp.go
意外とこんなものなのか(いいのか?)
llama.cpp 使う部分を自分で書いたらメモリの量とか管理できそうだが
現状は iGPU しか考えてなくてリクエストの度に llama-server を立てて潰しているっぽい
ollama やめたい
3ヶ月くらい前の llama.cpp にパッチを当てて使っている(なぜ?)
gpt-oss:20b で llama.cpp (w/ HIP) だと tg128 が素で 90 くらい、K を q8_0 にすると 60 くらい出るところ ollama だと 30 くらいしか出ない
SWA 周りか?
Plamo2 が動かない
llama.cpp だと ubatch size を適当な値にすることで prefill を加速できる(並列に計算できるので)一方で ollama はできないのでこっちも遅い
2025-08-07
llama.cpp
Vulkan
code:sh
$ llama-bench -m ~/.cache/llama.cpp/mmnga_gemma-3n-E2B-it-gguf_gemma-3n-E2B-it-Q4_K_M.gguf
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon RX 6800 (RADV NAVI21) (radv) | uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 1 | matrix cores: none
| model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | Vulkan,RPC | 99 | pp512 | 1540.55 ± 5.23 |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | Vulkan,RPC | 99 | tg128 | 86.06 ± 0.10 |
ROCm
code:sh
$ llama-bench -m ~/.cache/llama.cpp/mmnga_gemma-3n-E2B-it-gguf_gemma-3n-E2B-it-Q4_K_M.gguf
ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon RX 6800, gfx1030 (0x1030), VMM: no, Wave Size: 32
| model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | ROCm,RPC | 99 | pp512 | 2174.85 ± 1.89 |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | ROCm,RPC | 99 | tg128 | 70.93 ± 0.13 |
2025-08-03
THE IDOLM@STER 765PRO ALLSTARS LIVE ~NEVER END IDOL!!!!!!!!!!!!!!~ DAY2
すごすぎ
2025-08-02
LAWSON presents IDOLY PRIDE star tomorrow 盛夏祭/涼夏祭
「セトリが少しだけ変わります!」と言っておきながら新曲以外は2曲しか被ってないのなんなんだ