ローカルLLM
instruction 系の LLM のプロンプトのフォーマット
“日本語に強い”大規模言語モデル「Swallow」LLM開発における4つのキーポイント
GPUメモリに限りがある状況(16GB T4や24GB RTX3090など)でも大規模な言語モデルを高パフォーマンスで実行できる「FlexGen」が公開
自宅で動くChatGPTと噂のFlexGenをDockerで手軽に動かす|karaage0703
大規模言語モデルをシングルGPUで動かせる!? FlexGenを触ってみた
ChatGPT同等のモデルがMacbook Proで動く様子。
Running facebook opt-1.3b on FlexGen on GPU T4 * 2
Jetson AGX XavierにFlexGenをインストールして大規模言語モデルを動作させることに成功しました!!!
手元で動く軽量の大規模言語モデルを日本語でファインチューニングしてみました(Alpaca-LoRA)
しかし、Alpaca-LoRAというモデルを用いることで、手元で独自のデータを使って日本語のファインチューニングが可能になります。Google Colabを使うことで、コストを抑えて、数時間でのファインチューニングが可能です。これにより、より柔軟な応用が期待できます。
Open-Source ChatGPT Replication
-LLM fine-tuned on 43 million instructions
-Extensible retrieval system to augment bot responses with info from external data
-Smaller LLM fine-tuned to filter which questions bot responds to
-Decentralized training
High-throughput Generative Inference of Large Language Models with a Single GPU
I think I'll be trying to replicate alpaca (since the model isn't open yet), if you haven't seen, Stanford finetuned llama-7b into a model that outperforms text-davinci-003 and releases their dataset they used to do it along with hparams
Alpaca-loraを日本語タスクでファインチューニングする
RNNでTransformer並みの性能を実現するRWKVがやばい
大規模言語モデルを自社でトレーニング&活用する方法
日本語OSS
ローカルLLM実践入門
第1章 ローカルLLMの概要
第2章 ローカルLLMをサクっと使えるChatGPT風ツール Jan
第3章 ローカルLLMを活用できるコマンドラインツール Ollama
第4章 ローカルLLMを活用:画像の内容を説明
第5章 ローカルLLMを活用:コードの作成を支援
第6章 ローカルLLMを活用:LLMの回答を読み上げる
第7章 ローカルLLMが快適に使える最適なパソコンを自作しよう