バッチ推論
llama-cliで動くやつはBatchありそう
引数としてバッチの設定項目あり
How does one use this batched inference?
下記ふたつの設定が必要とのこと
cont-batching
enable continuous batching (a.k.a dynamic batching) (default: enabled)
(env: LLAMA_ARG_CONT_BATCHING)
--parallel
number of parallel sequences to decode (default: 1)
(env: LLAMA_ARG_N_PARALLEL)
それぞれのオプション引数についてどの設定が最も良いかの議論
→ まだッス!
なのでドカドカ打ち込めばドカドカ返せるイメージ
vLLMの通常completions APIにドカドカ打ちするイメージ https://scrapbox.io/files/674ecc7407e7647dbcc09c20.png
batchとabatchの違い
後者は戻り値がFuture/Promise的になってる
普通にawaitで制御してやれば後者で良さそう
Ollamaドカドカうちやったけどシングルとほとんど変わらなかったのはOllama側のせい? → LangChainの性質上ファイルアップロードして結果はファイルダウンロードして...みたいなのと相性悪そう
結論
余談