llama.cpp - daiiz

llama.cpp

https://gyazo.com/cb143fe8998be1028a5e7f21dd0c5370

https://github.com/ggerganov/llama.cpp

Inference of LLaMA model in pure C/C++

推論処理がC++で実装されている

量子化（Quantisation）

強いGPUを積んでいないマシンでも動かせるようになる

MacBookでの推論も可能になる

適切なサイズのモデルであればRaspberry Pi 4Bでも動いた