大規模言語モデル
en : Large Language Model
略 : LLM
同義 : 大規模自然言語モデル
自然言語処理 (NLP) タスクを実行するために、膨大な量のテキストデータを学習するニューラルネットワークモデルのこと
生成 AI の一種
OpenAI による GPT-3 の発表とともに注目を集めた
これらのモデルは、言語の構造や文脈を理解し、人間のように文章を生成したり、質問に答えたりすることができる
これまで専用のモデルが必要だった領域で、単一のモデルで高品質な結果を出力できる
明示的に学習させていない四則演算能力や画像の追加学習と組み合わせることで、テキストキャプションの生成やテキストからイメージの生成にも機能することが示された
モデルの中核には Transformer と呼ばれる技術
例
ChatGPT (OpenAI)
Claude (Anthropic)
Gemini (Google)
Apprentice Bard (Google)
Bing Chat (Microsoft)
GPT-4
PaLM
Alpaca
Alpaca-LoRA : LLaMA-7B をベースに Alpaca の学習データを使って LoRA によるよるファインチューニングを行い、Alpaca に近づけたもの
ChatGLM
ユーザーがダウンロードできるオープンな LLM も多く開発されている
Mistral (Mistral AI)
Gemma (Google)
LLaMA (Meta)
Phi (Microsoft)
日本語特化のもの
ELYZA (株式会社 ELYZA)
Open Calm (サイバーエージェント)
WebLab-10B (東京大学)
評価方法
ChatBot Arena
関連
言語モデル
Eight Things to Know about Large Language Models
大規模言語モデルの驚異と脅威
https://github.com/nat/openplayground
参考文献
DX 白書 2023
https://note.com/npaka/n/n00e5c66b6c18