最近ローカルLLMがアツいらしい
ollamaというのもある。これはバックエンドはLlama.cppなのだがなんも知識がないエンドユーザ向けに使いやすくラップしているというブツだ。インストーラでインストールすればコマンド一発でモデルDLしてきてただちにチャットできるし、ローカルサーバも簡単に立ち上がる。例えばObsidianというメモアプリのCopilotプラグインではOllamaサーバを叩く事でローカルLLMサポートを実現してる。 vLLMという推論ライブラリはサーバにAIモデルをデプロイして実際にサービスに使う事を念頭に置いて設計されてる MacのGPU自体はそこまで大した性能ではない。じゃあなんでこんなに推論速度が速いの?というと、LLMの推論というのは実は演算性能よりもメモリ帯域幅がモノを言うらしい。 Macのメモリはチップに直結されてるユニファイドメモリだから帯域幅が爆速で800GB/sもある。GPUのVRAMの帯域幅も爆速で、RTX4090では1008GB/sもある。これが推論速度に効いている。一方、私のPCのメインメモリなんて25.6GB/s、デュアルチャネルでも51.2GB/sしか出ない。全然遅い。だからCPUの推論も全然遅くなってしまうわけだ。 しかし、Macを買ってまでローカルでLLM推論する事がコスパがいい、などという話には正直言って疑問の余地があると私は思う。
というのは、例えば64万円くらいのM3MaxのMacでは、Llama3-70Bモデルの推論速度は24tpsくらいらしい。これは丸1日ブッ通しで出力させ続けても207万トークンしか出力できない。
Llama3-70BのAPI料金は入力1Mあたり0.59ドル、出力1Mあたり0.79ドルというかなりの激安で提供されている。207万トークン出力させるのに300円くらいしかかからない。
つまり、APIに対してMacでのローカル推論で元が取れるまでには6年間くらいブッ通しで推論させ続ける必要がある。しかも電気代は含めてない。それってコスパいいんだろうか? あと、Macは推論は速いけど、プロンプトが長くなるとプロンプト評価の待ち時間(つまり出力が始まるまでの時間)がNVidiaのGPUよりも大分長くなるらしいという点にも触れておく。
進化的マージでは推論さえできれば学習無しでモデルの性能を上げられる。VRAM24GBのGPUではせいぜい7Bモデルを進化させるのが精いっぱいだが、メモリ192GBのM2Ultraなら多分Llama3-70Bでも進化的マージさせる事は可能な気がする。まあ、Mistral-7Bベースに比べてLlama3-70Bの派生モデルはまだバリエーションに乏しいという問題はあるだろうが。