2025-08
2025-08-22
2025-08-21
2025-08-17
Tool call の連鎖が終わったら Thinking の中身は削除するのまじか
2025-08-11
理論的には gpt-oss は2倍、gemma3 は5倍遅いはず
2025-08-09
意外とこんなものなのか(いいのか?)
現状は iGPU しか考えてなくてリクエストの度に llama-server を立てて潰しているっぽい
gpt-oss:20b で llama.cpp (w/ HIP) だと tg128 が素で 90 くらい、K を q8_0 にすると 60 くらい出るところ ollama だと 30 くらいしか出ない
SWA 周りか?
Plamo2 が動かない
llama.cpp だと ubatch size を適当な値にすることで prefill を加速できる(並列に計算できるので)一方で ollama はできないのでこっちも遅い 2025-08-07
Vulkan
code:sh
$ llama-bench -m ~/.cache/llama.cpp/mmnga_gemma-3n-E2B-it-gguf_gemma-3n-E2B-it-Q4_K_M.gguf
ggml_vulkan: Found 1 Vulkan devices:
ggml_vulkan: 0 = AMD Radeon RX 6800 (RADV NAVI21) (radv) | uma: 0 | fp16: 1 | bf16: 0 | warp size: 32 | shared memory: 65536 | int dot: 1 | matrix cores: none
| model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | Vulkan,RPC | 99 | pp512 | 1540.55 ± 5.23 |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | Vulkan,RPC | 99 | tg128 | 86.06 ± 0.10 |
ROCm
code:sh
$ llama-bench -m ~/.cache/llama.cpp/mmnga_gemma-3n-E2B-it-gguf_gemma-3n-E2B-it-Q4_K_M.gguf
ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no
ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no
ggml_cuda_init: found 1 ROCm devices:
Device 0: AMD Radeon RX 6800, gfx1030 (0x1030), VMM: no, Wave Size: 32
| model | size | params | backend | ngl | test | t/s |
| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | ROCm,RPC | 99 | pp512 | 2174.85 ± 1.89 |
| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | ROCm,RPC | 99 | tg128 | 70.93 ± 0.13 |
2025-08-03
すごすぎ
2025-08-02
「セトリが少しだけ変わります!」と言っておきながら新曲以外は2曲しか被ってないのなんなんだ