2025-08 - tosuke

2025-08

<- 2025-07

-> 2025-09

2025-08-22

2025-08-21

これって Kubernetes の Device Plugin 書いて遊べるんじゃないか

あるのかよ https://github.com/intel/intel-resource-drivers-for-kubernetes/blob/f3dee4fbbcf767b253132eed25ac73f85914a84b/doc/gpu/README.md

2025-08-17

How to handle the raw chain of thought in gpt-oss

Tool call の連鎖が終わったら Thinking の中身は削除するのまじか

2025-08-11

ollama には確かに SWA がない

理論的には gpt-oss は2倍、gemma3 は5倍遅いはず

2025-08-09

https://github.com/docker/model-runner/blob/1c13e4fc61d6e3040efe0c5d5f731893911b5139/pkg/inference/backends/llamacpp/llamacpp.go

意外とこんなものなのか(いいのか?)

llama.cpp 使う部分を自分で書いたらメモリの量とか管理できそうだが

現状は iGPU しか考えてなくてリクエストの度に llama-server を立てて潰しているっぽい

ollama やめたい

3ヶ月くらい前の llama.cpp にパッチを当てて使っている(なぜ?)

gpt-oss:20b で llama.cpp (w/ HIP) だと tg128 が素で 90 くらい、K を q8_0 にすると 60 くらい出るところ ollama だと 30 くらいしか出ない

SWA 周りか?

Plamo2 が動かない

llama.cpp だと ubatch size を適当な値にすることで prefill を加速できる(並列に計算できるので)一方で ollama はできないのでこっちも遅い

2025-08-07

llama.cpp

Vulkan

code:sh

$ llama-bench -m ~/.cache/llama.cpp/mmnga_gemma-3n-E2B-it-gguf_gemma-3n-E2B-it-Q4_K_M.gguf

ggml_vulkan: Found 1 Vulkan devices:

| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |

| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | Vulkan,RPC | 99 | pp512 | 1540.55 ± 5.23 |

| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | Vulkan,RPC | 99 | tg128 | 86.06 ± 0.10 |

ROCm

code:sh

$ llama-bench -m ~/.cache/llama.cpp/mmnga_gemma-3n-E2B-it-gguf_gemma-3n-E2B-it-Q4_K_M.gguf

ggml_cuda_init: GGML_CUDA_FORCE_MMQ: no

ggml_cuda_init: GGML_CUDA_FORCE_CUBLAS: no

ggml_cuda_init: found 1 ROCm devices:

Device 0: AMD Radeon RX 6800, gfx1030 (0x1030), VMM: no, Wave Size: 32

| ------------------------------ | ---------: | ---------: | ---------- | --: | --------------: | -------------------: |

| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | ROCm,RPC | 99 | pp512 | 2174.85 ± 1.89 |

| gemma3n E2B Q4_K - Medium | 2.59 GiB | 4.46 B | ROCm,RPC | 99 | tg128 | 70.93 ± 0.13 |

2025-08-03

THE IDOLM@STER 765PRO ALLSTARS LIVE ~NEVER END IDOL!!!!!!!!!!!!!!~ DAY2

すごすぎ

2025-08-02

LAWSON presents IDOLY PRIDE star tomorrow 盛夏祭/涼夏祭

「セトリが少しだけ変わります！」と言っておきながら新曲以外は2曲しか被ってないのなんなんだ