llama.cpp - work4ai

llama.cpp

https://gyazo.com/d0fac04c4c0ec1cfa641eb969464c37e

GitHub : https://github.com/ggerganov/llama.cpp

主な目的は、MacBookで4ビット量子化を使ってモデルを実行することです

依存性のないプレーンなC/C++の実装

Apple silicon first-class citizen - Arm Neon と Accelerate フレームワークによって最適化されています。

x86アーキテクチャのAVX2サポート

F16/F32の混合精度

4ビット量子化対応

CPU上で動作する

対応UI

Text generation web UI