LLM
https://scrapbox.io/files/6584f6e51b02c500221a95a4.png
LLMは
数値ではなく、自然言語という言葉を入力し推論する
とは言え学習データを用意して
統計処理にかけてモデルを完成させるという深層学習の作業はその他の機械学習と何ら変わりません。
他の機械学習と大きく違う点は
LLMの場合
ユーザーは学習処理はせず
OpenAIなど、既に学習されたモデルを利用するケースが多いという点です。
その理由はLLMの学習データの性質に起因します。
LLM以外のモデルは自社で学習データを用意して学習処理から行い自社でモデルを開発しなければいけないケースが多くあります。
それは、その学習データがその企業固有のデータだからです。
それに対してLLMはどうでしょうか。
上述した通り、LLMは一般的な言葉が学習データとなるモデルです。
言葉に「ある企業固有の言葉」というものは基本的にはありません。
日本語はどこの企業でもどこの国でも同じ日本語です。
また言葉を学習データとする場合、そのデータの入手に困ることはないでしょう。
インターネットに膨大なドキュメントデータが存在し、誰でも入手できるわけですから。
となれば、このデータを使って、優れたLLMを提供しようというLLMプロバイダーが沢山出現しても何ら不思議はなく、ユーザーはこれらプロバイダが提供するサービスを利用することで、学習処理を行う必要もないということになります。
そういう理由から現在この市場には沢山のLLMプロバイダーが存在し
巨額の投資マネーも手伝い
一大マーケットが形成されつつあるという状況で
その最先端にいるのがまさにOpenAI社ということになります。
もちろん、LLMをゼロから開発するという企業も沢山存在します。
特に最近では日本語の精度を高くすることにフォーカスしたモデルだったり
法律関係など専門的な分野にフォーカスしたモデルを開発して公開している企業や研究機関はあります。
その他、セキュリティの観点からLLMを自社開発する企業もあります。
ただ、LLMのモデル開発は
大規模な学習環境が必要なため莫大なコストを要する点
最新の学習手法(特に分散学習や学習パラメータ数を減らす手法)については数々のフレームワークがありそれぞれにpros/consがあるという状況で一般的には技術的な難易度が非常に高いと言われています。
ですので、多くのユーザーは既に学習済のモデルを使ったり、そのモデルをベースとしてファインチューニングするという選択をとる傾向にあります。
LLMとは
インターネット上に存在するドキュメントデータをクローリングにより大量に収集し
それを学習データとして機械学習にかけたモデルです。