LLMのプロンプトエンジニアリング
https://scrapbox.io/files/686534ef1038368ea0be259b.jpg
原則
LLMは本質的に、トレーニング中に提供されるテキストを模倣するテキスト補完エンジンに過ぎない
そうかも
I部基礎
「十分に発達した科学技術は、魔法と見分けがつかない」
なんか聞いたことあるぞ
有名なのかも
現代的LLMが採用するアーキテクチャ「トランスフォーマー」
かっけえ
無数の小さな脳(ミニブレイン)があり
それぞれはよく似た構造・役割
各ミニブレイン knows
担当するトークン
そのトークンが文中のどの位置にあるか
ミニブレインの能力
1. 最終ステップまでは、得た中間結果の一部を右側のミニブレインへ渡す
2. 最終ステップでは、すぐ右隣に来るトークンが何かを予測
アテンション機構
1. ミニブレインは質問を持つ
あるミニブレインが[my]のトークン上にいる場合、それが指す「私」がなにか知りたい
2. ミニブレインは共有できるいくつかの情報を持ち、提示する
あるミニブレインが[Susan]のトークン上にいる場合
このトークンが「Hello, I'm Susan」のような最後の単語であることを事前に学習していたとする
ミニブレインは「今話しているのはSusanです」という情報を提示する]
3. 各質問はもっとも適した答えとマッチングする
4. 選ばれた解答は質問を発したミニブレインへ
LLMは左側のミニブレインの参照しかできない
ミニブレインは前方のミニブレインが提供する情報を知らない
LLMは最初から最後までを1度しか読まない
「~~~~~~ 以上の文字列を数えてください」と「以下の文字列を数えてください ~~~~~~」ではまったく精度がちがう
II部 中心的なテクニック
III部 プロンプト作成のエキスパート