ReAct: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS
読んだ動機
LLMが利用者の動機を把握して、適切にWebページなどを案内できるような機能が実装できないのかを考えており、そのヒントを探すために読んでいる
どんなモノ
ReasoningとActをシームレスに繋ぐことは、人間特有の知能で人間の認知において自己を調整したり、戦力を立てたりするための重要な役割を担っていると理論化されている
この相乗効果が未だ見ぬ環境や不明瞭な情報に直面していてさえも、新しいタスクを早く学習したり、頑健な意思決定に役立つのだ
ということで、この研究ではReasoningとActを交互に繰り返して、一つのタスクを達成するという感じのことをLLMsで行うための手法を提案した論文といえそう
ちなみに実験で使ったモデルはPaLMが中心
追加の実験でGPT-3でも試している
先行研究と比べてどこがすごい?
主な貢献
プロンプトによってReasoningとActの相互作用を実現し、言語モデルにあらゆるタスクの解決を可能にさせたこと
ResoningタスクにおいてActingの重要性を、インタラクティブなタスクでのResoningの重要性を確認した
これまではReasoningとActが別タスクとして研究されていたがその二つを統合したこと
Reasoning
CoT
Action
WebGPT、SayCan、ACT-1
llama-indexなどのいわゆる外部知識を用いるのもこの辺に入りそう
いろんなタスクで既存のモデルを超えた
特にALFWorldやwebshopでは、従来手法であるimitation learningや強化学習による手法で学習されたモデルを圧倒した
1000〜100000のサンプルを使って学習したとのこと
Imitation Learningとは、教師あり強化学習のことらしい
この性能を傍においても解釈可能性と信頼性、診断可能性がどのドメインであっても高い
モデルのReasoningの過程を追えるので、それを検証すればよいため
技術や手法のキモはどこ?
プロンプトによってReasoningとActの相互作用を実現し、言語モデルにあらゆるタスクの解決を可能にさせたこと。
https://gyazo.com/5001f359f440ad200a0e508c4c0dc895
<Canvaで図を作ってみた>
https://gyazo.com/db8b551b3fee539be9367cd9ae019fb8
https://gyazo.com/f90dc174adb65189df213fc5fd5c8f40
https://gyazo.com/63f98e570dd82cf38412c9cea088fb40
https://gyazo.com/df6b97a916412c19080a16098500d054
対話の打ち切りタイミングは任意に設定できるらしく、長さや内容に応じて打ち切りタイミングが決定されたりするとのこと
どうやって有効だと検証した?
https://gyazo.com/904af7280dddf71dc220d6a89460f5d5
HotPotQA
いわゆるQA
https://gyazo.com/071d1d7a39e2cb4d47af14896032b454
Fever
いわゆるfact verificationで、QAと似た感じ。
ALFWorld
テキストベースのゲーム
https://gyazo.com/fa99e267c015ea5b31c90ea950ca271b
Webshop
ウェブページのナビゲーションをするタスク
議論はある?
Ablation Studyの結果、ActだけやReasoningだけの場合よりも二つが組み合わさっている場合の方がどのタスクにおいても性能が高いことがわかった
このReAct promptingの軌跡をFine-tuningで学習させたところ、どのモデルサイズにおいても良い性能を発揮し、学習ステップが増えるほど性能が向上した。
一方で、通常の工夫のないPromptingやCoTの場合は学習直後はデグレした
次に読むべき論文は?
補助的に読んだ資料