ノートPCのCPUだけでLlamaとチャットをしてみよう
目的
研究室のマシンを使わず、お金もかけずLlamaを使ってお話をする
(背景:独り言を聞いてくれる相手が欲しかった)
できるようになること
Kobold.cppを使って、CPUだけを使ってELYZA-japanese-Llama-2-7b-fast-instruct-gguf(q4_K_M)とチャットする
https://scrapbox.io/files/681330006b81fd459e14af8e.png
(使用イメージ:優しい言葉をかけてくれる)
使用モデル
ELYZA-japanese-Llama-2-7b-fast-instruct-gguf(q4_K_M)
Kobold.cppとは
使用するLLMを選んですぐにチャットを始められるwebブラウザからアクセスできるGUIのアプリ
ggufとは
GGUF (GPT-Generated Unified Format) は、AIモデルの重みやメタデータをひとつにまとめて保存するバイナリ形式
これにより、CPUだったりVRAMの少ないGPUでもLLMが動かせる
やり方:Kobold.cppと使用するモデルをダウロードしてKobold.cppを実行するだけ
① Kobold.cppがあるGithubのAssetsから使いたいものをダウンロードする
(CPUだけで動かしたいならkoboldcpp_nocuda.exe)
② 使用するLLMモデルをダウンロードする
なんでもいいけど.ggufになっているモデルをダウンロードする
ELYZA-japanese-Llama-2-7b-fast-instruct-ggufの場合はここ
(q〇:量子化ビット数、K_M:高精度量子化アルゴリズムのバージョン(らしい))
量子化ビット数が高ければ精度が高くなる
CausalLMモデル以外は使えない
③ ダウンロードしたkobold_nocuda.exeファイルを実行する
ファイアウォールとかで実行中止されるかもしれないが、詳細表示とかから実行
④ コマンドプロンプトが開かれるので、アプリが開かれるまで待つ
https://scrapbox.io/files/681334ade9ae83f47fc18816.png
⑤ Launchを押し、使用するモデルのファイルを選ぶ
Browseから選んでもできる
ファイルパスの一部に日本語が入っていると「ロード出来ませんでした」になる
⑥ localhost:5001でチャットのアプリが立ち上がる
参考
GGUFの解説記事
#Naoto_Yazaki
#Llama