localLLM on archlinux

proxmoxの上のarchlinux(lxc)でollama + open-webuiを動かそうとしたときのメモ

lxc

memory 8GB → 16GB

cpu 4core → 8core

ollama

https://ollama.com/

https://wiki.archlinux.org/title/Ollama

tanuki

https://weblab.t.u-tokyo.ac.jp/news/2024-08-30/

https://zenn.dev/karaage0703/articles/5fd411a9358898#tanuki-8bを動かす

https://ollama.com/7shi/tanuki-dpo-v1.0

llama-3-ELYZA

https://huggingface.co/elyza/Llama-3-ELYZA-JP-8B-GGUF/tree/main

https://qiita.com/s3kzk/items/3cebb8d306fb46cabe9f

open-webui

https://docs.openwebui.com/

https://docs.openwebui.com/getting-started/quick-start/

https://github.com/open-webui/open-webui

memo

いったんの結論

llama-3-ELYZAを使う

webuiで適当にRAGが使えるので、知識は原則RAGを参照するように

ollamaはsystemdで直実行、webuiはコンテナ経由する

webuiを直起動しようとしたら安定しなかったので

構築

ollama

https://github.com/kei-s16/homelab/pull/50

webui

systemdで起動するようにしたかったが、パッケージが巨大すぎてタイムアウトしたので初回は手動で

code:zsh

mkdir .open-webui

DATA_DIR=/home/maintainer/.open-webui uvx --python 3.11 open-webui@latest serve

重いので当初の倍のスペックにした

WebUIはインスタンス分けたほうがいいかな〜

比較

7shi/tanuki-dpo-v1.0:8b-q6_K

普通のやつ？

反応はもったりしているが、動く

適当にお喋りしたら死にそう

https://scrapbox.io/files/67e2b32a42f2a4b77511a3d6.png

https://scrapbox.io/files/67e2b351cc58a4adb32c6f3c.png

7shi/tanuki-dpo-v1.0:8b-iq3_XXS

いちばん軽いやつ(たぶん)

反応速い。解答も悪くないかなー

CPUでぶん殴る感じか

https://scrapbox.io/files/67e2b535bdd878aa19f942b4.png

https://scrapbox.io/files/67e2b54f26e82e20937e24b4.png

7shi/tanuki-dpo-v1.0:8b-q4_K_S

ちょっとサイズ落としたやつ？

リソース消費と速度のバランスいいからこれ採用かなー

https://scrapbox.io/files/67e2b892bffb3ac12cbb1b91.png

https://scrapbox.io/files/67e2b91726e82e20937e39d3.png

Llama-3-ELYZA-JP-8b-GGUF

よさげ

https://scrapbox.io/files/67e3efb746ff19b044d72a28.png

https://scrapbox.io/files/67e3f012b44f51c6c5ccf8a2.png