ローカルLLM
LightChatAssistant-4x7B-f16.gguf: 非常に流暢な日本語で応答するものの、小説の内容理解には限界が見られた。キャッチーな単語に引きずられるなど、ややハルシネーションが見受けられた。ただし、このサイズのモデルとしては驚くべき性能を示している。
c4ai-command-r-v01-Q8_0.gguf: 洗練された文章で、小説のテーマをある程度理解している。登場人物の分析は限定的だが、想像力豊かな解釈を示した。ただし、やや饒舌な傾向があり、時折本題から外れた考察も見られた。
command-r-plus-Q4_K_M: 極めて高い理解力と要約力を示し、作品の伏線や登場人物の理解も的確だった。文章は読みやすく洗練されており、ローカルLLMの中で最も優秀な性能を示した。小説のテーマを深く理解し、適切な批評を行っている。
Karasu-Mixtral-8x22B-v0.1-Q3_K_M: command-r-plus-Q4_K_Mと同等の高い理解力を示した。ファン活動という小説の重要な要素を的確に指摘するなど、優れた分析力が見られた。ただし、日本語の文章はやや不自然で、改善の余地がある。
APIは高価
ローカルLLMを検証するインセンティブができた
環境
LLMプロダクト開発をする会社の視点でいえば、是非とも80GB以上の十分なGPUメモリを積んだマシンを用意...
llama3:70BやCommand-R+クラスのLLMは最低64GB欲しい
Apple Siliconは UMA (Unified Memory Architecture)
商用向けGPUを動かす環境を作るのはめんどくさい
置き場所、電源、冷却
ソフトのセットアップ
もちろん、値段とセットアップの大変さと電気代などを無視して良いならNVIDIAをガン積みするのは本気で良い選択です。Mac Studioより遙かに性能も高いでしょうし、CUDAがそのまま使えるので互換性も圧倒的に高いはずです。Macの場合はMLXが対応してくれないと厳しい、みたいなところはあります。