llama.cpp
https://gyazo.com/cb143fe8998be1028a5e7f21dd0c5370
https://github.com/ggerganov/llama.cpp
Inference of
LLaMA
model in pure C/
C++
推論
処理がC++で実装されている
量子化
(Quantisation)
強いGPUを積んでいないマシンでも動かせるようになる
MacBookでの推論も可能になる
適切なサイズのモデルであれば
Raspberry Pi 4B
でも動いた