LLM - かおすた

LLM

/nishio/LLM

Large Launguage Model

GPT-3、ChatGPT、Bing AIなど、大きな言語モデルやそれを使って実現された対話システムや検索エンジンなどをざっくりと総称する言葉

/villagepump/2023/03/02#640031b6774b170000cc1102

LLMがない生活には戻れないと言っている by motoso.icon

早いなぁ。もうこの境地かsta.icon

俺ももうちょっと頑張ってみようかしら

たぶん想像以上に色々使えるんだよな、たぶん

画像生成AI（既存の絵から技法を抽出するAI）は燃えがちなのに比べ、LLM（既存の文章からナレッジを抽出するAI）は比較的燃えないのは、全員が利益を享受できているからでは？

LLMとはナレッジ抽出AI

仕組み

ChatGPTのような高性能言語モデルを生み出した技術はどんな仕組みなのか？をAI企業のエンジニアが多数の図解でゼロから解説 - GIGAZINE

次に来るものを予測する

例えば、「The color of the sky is(空の色は)」という文に対して「blue(青い)」という言葉が続く確率を計算することが可能です。

こうきたらこう、ってのを事前に学習させておく

事前学習済みモデル

ドメインに応じて適宜追加の学習をさせる

ファインチューニング

---

ニューラルネットワークという仕組みを使っている

ニューラルネットワークは人間の脳の仕組みが元になっており、多数のニューロンが接続された構造になっています。それぞれのニューロンの間の接続強度は「パラメーター」で表されており、よりパラメーターの数値が高いほどニューロンの結びつきが強く、前のニューロンに入力された信号が次のニューロンにはっきりと伝わる仕組みです。

https://gyazo.com/3a83c4c1bbe038550bd4758ab9533636

よーわからんけど重み付き有向グラフ？sta.icon

パラメーターが1億こえたのがLLM

一方で、パラメーター数に応じてトレーニングに必要なデータの数や時間が増加していきます。このパラメーター数が1億を超えるような特に大きいモデルのことを大規模言語モデルと言います。

パラメーターって何？

辺一本のこと？

辺一本に課してる重みの数値のこと？

いや、辺に課せる重みが一つだとするなら同じことかsta.icon

が、さらに単語の埋め込みやアテンションの概念を導入したものが使われている

Transformer

encoder decoderの図は前もノート取った覚えがあるなぁ……

GPT

何十億！

2022年ごろには数千億のパラメーター数を誇る大規模言語モデルが登場しています。モデルが大規模化するにつれてトレーニングに必要なデータの量と時間も増加しており、詳しい金額は公開されないものの事前学習だけで何十億円もかかるという見積もりが行われています。

AIの懸念（真実性や無害性の担保）をどう回避していくか、RLHFを使う

この3点を達成するのに2023年6月時点で最も適しているとされているのが「人間のフィードバックによる強化学習(RLHF)」です。RLHFには下図左側に表示されている通常の言語モデルと、下図右側に緑色で表示されている、2つの入力を受け取って「人間がどちらの回答を好むのか？」を決めるモデルが登場します。通常の言語モデルに「より人間が好みそうな回答」を学習させることで、タスクへの回答の品質が向上します。

ChatGPTでもやってる

shoya140.iconさんが言うてた「専門家がいじってるで」のやつか

ChatGPTでは3段階に分けてRLHFが進められました。

最初のステップでは人間による見本を「理想的な回答」としてモデルをトレーニングしました。このアプローチでは人間が見本を書く必要があるため、スケーリングするのが難しいという問題を抱えています。

2番目の段階では、言語モデルが生成した複数の回答の優劣を人間が投票し、回答と投票結果を報酬モデルに学習させることが行われました。こうして報酬モデルは「どのような回答が人間好みなのか」を判断する能力を身につけたというわけです。

そして3番目の段階では、報酬モデルに基づいて言語モデルが人間好みの回答を出力するようにトレーニングを行いました。この2段階目と3段階目は複数回に渡って行われたとのこと。

一長一短

RLHFを行わなかった場合、インターネットの玉石混交な文章から回答が生成されることになります。そうした場合、分布の範囲が広すぎて回答が安定しない可能性が存在するとのこと。例えば政治家について質問した場合、Wikipediaを基にした中立的な回答をする可能性もあれば、掲示板などの過激な視点を元に極端な発言をしてしまう可能性もあるわけです。RLHFでは人間の視点を注入することで、モデルにバイアスを与えて生成する範囲を狭めていると考えることができます。回答の多様性と安定性・一貫性はトレードオフの関係にあり、一方だけを獲得することはできません。もちろん、検索エンジンなど正確や信頼性の求められる分野においては一貫して安定している回答が望ましいのでRLHFを行うべきですが、創造的な作業の補助用途などでRLHFを使用すると、多様性をもとにした新しく興味深い概念の探求が妨げられることもあるとランポニさんは述べています。

【ほぼ全文】「LLM開発はPost-trainingがカギとなる」ELYZA曽根岡がLLMの現状・課題・展望を解説｜ELYZA, Inc.

ChatGPTの革新性は、学習データを一切加えなくても多様なタスクに対して高精度な出力ができるところです。これを実現可能にした重要な技術がPost-trainingになります。

LLMは大きく3つの学習ステップを踏みます。

最初のステップは事前学習あるいはPre-trainingと呼ばれます。先ほどご説明した、大量の文章を読み込ませ、次の単語を予測させ続けるというものです。語彙や文法、一般常識的な知識を学ぶ段階です。

ステップ2では、AIに出したい多様な指示データを集め、それに対する回答を学習させていきます。具体的には「日本の首都は何ですか？」や「この文章を要約してください」という指示に対する回答を数万件用意し、それを学習させます。

ステップ3のフィードバック学習では、ある程度指示に従って回答できるようになったAIに、さらなる出力内容の改善を加えます。AIが出力した結果に対して人間が評価をつけ、それに基づいて品質を改善していきます。

RLHFsta.icon

LLMとDX

DXについて、企業のLLM活用の動きを4つのステップで表すと、

全社員がGPT等を利用できる環境を整備し、ガイドライン策定や勉強会を行っていくことがステップ1。

全社的にLLMを触ってみてLLMへの解像度を高め、活用シーンを探索していくのがステップ2です。

ステップ3では自社業務の特定タスクで本格的に実用化を進めていきます。

ステップ4では業務全体を大幅に見直すLLM活用や、顧客向けサービスの革新を目指していきます。

DXを進める上での留意点という観点から見ると、A.コスト構造、B.模倣容易性、C.利用量制限、D.セキュリティの4つに注目すると良いと思います。

コスト≒OpenAI APIの料金

模倣はしやすい

利用料はRate Limite

セキュリティは海外サーバにデータ置けないやろとかそういう話

Microsoftが日本に置けるようにする（Azureかな）からそのうち解決するやろ言うてる

独自LLM

例えばBloombergは金融向け、Googleは医療向けに特化したモデルの開発を独自に行っています。

個人情報など機密性の高い情報を扱うケース、業界専門用語が多いドメインでは独自LLMの需要が高くなると思います。金融や医療はまさに、ですね。

大手は自社モデルつくってる

OpenAIに依存する状況から脱し、各企業が独自のLLM作成に取り組むケースも増えてきています。日本国内の通信キャリアであるソフトバンクとNTTはそれぞれ自社のモデルを作成すると発表しています。

Preからやるか、Postからやるか

LLM開発には選択肢が2つあります。1つ目は、フルスクラッチで事前学習（Pre-training）からPost-trainingまで独自で行う方法。2つ目は既に公開されている商用利用可能なモデルを利用し、Post-trainingのみを行う方法です。

後者の方が費用抑えられるし、巨大モデルレベルの精度も出せる

この会社が支援しているのもここ