ノートPCのCPUだけでLlamaとチャットをしてみよう

目的

研究室のマシンを使わず、お金もかけずLlamaを使ってお話をする

（背景：独り言を聞いてくれる相手が欲しかった）

できるようになること

Kobold.cppを使って、CPUだけを使ってELYZA-japanese-Llama-2-7b-fast-instruct-gguf（q4_K_M）とチャットする

https://scrapbox.io/files/681330006b81fd459e14af8e.png

（使用イメージ：優しい言葉をかけてくれる）

使用モデル

ELYZA-japanese-Llama-2-7b-fast-instruct-gguf（q4_K_M）

Kobold.cppとは

使用するLLMを選んですぐにチャットを始められるwebブラウザからアクセスできるGUIのアプリ

ggufとは

GGUF (GPT-Generated Unified Format) は、AIモデルの重みやメタデータをひとつにまとめて保存するバイナリ形式

これにより、CPUだったりVRAMの少ないGPUでもLLMが動かせる

やり方：Kobold.cppと使用するモデルをダウロードしてKobold.cppを実行するだけ

①　Kobold.cppがあるGithubのAssetsから使いたいものをダウンロードする

（CPUだけで動かしたいならkoboldcpp_nocuda.exe）

②　使用するLLMモデルをダウンロードする

なんでもいいけど.ggufになっているモデルをダウンロードする

ELYZA-japanese-Llama-2-7b-fast-instruct-ggufの場合はここ

（q〇：量子化ビット数、K_M：高精度量子化アルゴリズムのバージョン（らしい））

量子化ビット数が高ければ精度が高くなる

CausalLMモデル以外は使えない

③　ダウンロードしたkobold_nocuda.exeファイルを実行する

ファイアウォールとかで実行中止されるかもしれないが、詳細表示とかから実行

④　コマンドプロンプトが開かれるので、アプリが開かれるまで待つ

https://scrapbox.io/files/681334ade9ae83f47fc18816.png

⑤　Launchを押し、使用するモデルのファイルを選ぶ

Browseから選んでもできる

ファイルパスの一部に日本語が入っていると「ロード出来ませんでした」になる

⑥　localhost:5001でチャットのアプリが立ち上がる

参考