localLLM on archlinux
proxmoxの上のarchlinux(lxc)でollama + open-webuiを動かそうとしたときのメモ
lxc
memory 8GB → 16GB
cpu 4core → 8core
ollama
tanuki
llama-3-ELYZA
open-webui
memo
いったんの結論
llama-3-ELYZAを使う
webuiで適当にRAGが使えるので、知識は原則RAGを参照するように
ollamaはsystemdで直実行、webuiはコンテナ経由する
webuiを直起動しようとしたら安定しなかったので
構築
ollama
webui
systemdで起動するようにしたかったが、パッケージが巨大すぎてタイムアウトしたので初回は手動で
code:zsh
mkdir .open-webui
DATA_DIR=/home/maintainer/.open-webui uvx --python 3.11 open-webui@latest serve
重いので当初の倍のスペックにした
WebUIはインスタンス分けたほうがいいかな〜
比較
7shi/tanuki-dpo-v1.0:8b-q6_K
普通のやつ?
反応はもったりしているが、動く
適当にお喋りしたら死にそう
https://scrapbox.io/files/67e2b32a42f2a4b77511a3d6.png
https://scrapbox.io/files/67e2b351cc58a4adb32c6f3c.png
7shi/tanuki-dpo-v1.0:8b-iq3_XXS
いちばん軽いやつ(たぶん)
反応速い。解答も悪くないかなー
CPUでぶん殴る感じか
https://scrapbox.io/files/67e2b535bdd878aa19f942b4.png
https://scrapbox.io/files/67e2b54f26e82e20937e24b4.png
7shi/tanuki-dpo-v1.0:8b-q4_K_S
ちょっとサイズ落としたやつ?
リソース消費と速度のバランスいいからこれ採用かなー
https://scrapbox.io/files/67e2b892bffb3ac12cbb1b91.png
https://scrapbox.io/files/67e2b91726e82e20937e39d3.png
Llama-3-ELYZA-JP-8b-GGUF
よさげ
https://scrapbox.io/files/67e3efb746ff19b044d72a28.png
https://scrapbox.io/files/67e3f012b44f51c6c5ccf8a2.png