バッチ推論 - kawamou

バッチ推論

llama-cliで動くやつはBatchありそう

引数としてバッチの設定項目あり

How does one use this batched inference?

下記ふたつの設定が必要とのこと

cont-batching

enable continuous batching (a.k.a dynamic batching) (default: enabled)

(env: LLAMA_ARG_CONT_BATCHING)

--parallel

number of parallel sequences to decode (default: 1)

(env: LLAMA_ARG_N_PARALLEL)

それぞれのオプション引数についてどの設定が最も良いかの議論

→ まだッス！

デフォルトでconcurrencyサポートしたらしい

なのでドカドカ打ち込めばドカドカ返せるイメージ

llama.cppにしてもOllamaにしてもエンドポイントとしてのBatch APIはなく、ドカドカ打ち込みにドカドカ返せまっせのノリか？

vLLMの通常completions APIにドカドカ打ちするイメージ

batchはLangChain内で並列実行するようにしてるだけっぽい → Ollamaとかと相性良さそう

https://scrapbox.io/files/674ecc7407e7647dbcc09c20.png

batchとabatchの違い

後者は戻り値がFuture/Promise的になってる

普通にawaitで制御してやれば後者で良さそう

Ollamaドカドカうちやったけどシングルとほとんど変わらなかったのはOllama側のせい？

vLLMとかClaudeだったら同じコードで早くなったので

→ LangChainの性質上ファイルアップロードして結果はファイルダウンロードして...みたいなのと相性悪そう

結論

Batch APIは対応してないケース多いので、とりあえずドカドカ打ちで良さそう

余談

asyncioはNode的な