大規模言語モデル

略 : LLM

自然言語処理 (NLP) タスクを実行するために、膨大な量のテキストデータを学習するニューラルネットワークモデルのこと

生成 AI の一種

OpenAI による GPT-3 の発表とともに注目を集めた

これらのモデルは、言語の構造や文脈を理解し、人間のように文章を生成したり、質問に答えたりすることができる

これまで専用のモデルが必要だった領域で、単一のモデルで高品質な結果を出力できる

明示的に学習させていない四則演算能力や画像の追加学習と組み合わせることで、テキストキャプションの生成やテキストからイメージの生成にも機能することが示された

モデルの中核には Transformer と呼ばれる技術

例

クラウド経由で利用できるクローズドソース型

クラウド利用かつオープンソース型

ローカルで実行可能なオープンソース型

Alpaca-LoRA : LLaMA-7B をベースに Alpaca の学習データを使って LoRA によるよるファインチューニングを行い、Alpaca に近づけたもの

日本語特化のもの

評価方法