llama.cpp

GGUFをマージする

入力は分割されたggufファイルのうちひとつだけ指定すれば残りを見つけてくれるらしい（なんでhelpに書いておいてくれないのか）

code:sh

./build/bin/llama-gguf-split --merge unsloth_Qwen3-32B-GGUF_BF16_Qwen3-32B-BF16-00001-of-00002.gguf unsloth_Qwen3-32B-GGUF_BF16_Qwen3-32B-F16.gguf

BF16のGGUFをF16に変換する

Tesla K80ではBF16のモデルを実行できなかったので、FP16に変換する

code:sh

./build/bin/llama-quantize unsloth_Qwen3-30B-A3B-GGUF_BF16_Qwen3-30B-A3B-BF16.gguf mmns_Qwen3-30B-A3B-F16.gguf F16