llama.cpp
https://github.com/ggml-org/llama.cpp
GGUFをマージする
入力は分割されたggufファイルのうちひとつだけ指定すれば残りを見つけてくれるらしい(なんでhelpに書いておいてくれないのか)
code:sh
./build/bin/llama-gguf-split --merge unsloth_Qwen3-32B-GGUF_BF16_Qwen3-32B-BF16-00001-of-00002.gguf unsloth_Qwen3-32B-GGUF_BF16_Qwen3-32B-F16.gguf
BF16のGGUFをF16に変換する
Tesla K80ではBF16のモデルを実行できなかったので、FP16に変換する
code:sh
./build/bin/llama-quantize unsloth_Qwen3-30B-A3B-GGUF_BF16_Qwen3-30B-A3B-BF16.gguf mmns_Qwen3-30B-A3B-F16.gguf F16
llama.cpp guide - Running LLMs locally, on any hardware, from scratch ::
https://deepwiki.com/search/gfx900_990063bc-06f4-445a-aa89-f6674c687bd8
https://deepwiki.com/search/splitmode-layer-splitmode-row_0defeaf2-9d67-4376-8cdf-bc8c75999475