llama.cpp
https://gyazo.com/d0fac04c4c0ec1cfa641eb969464c37e
GitHub :
https://github.com/ggerganov/llama.cpp
主な目的は、
MacBook
で4ビット量子化を使ってモデルを実行することです
依存性のないプレーンな
C
/
C++
の実装
Apple silicon first-class citizen - Arm Neon と Accelerate フレームワークによって最適化されています。
x86アーキテクチャのAVX2サポート
F16/F32の混合精度
4ビット量子化対応
CPU上で動作する
対応UI
Text generation web UI
koboldcpp
LLaMA