GUIエージェントの学習
プロンプトベース
事前に用意された巧妙なプロンプトやインタラクション機構を通じて、推論時に学習や適応が行われ、モデルパラメータを変更することなくエージェントが動作します。
トレーニングベース
事前学習
初期のGUIタスク向けモデルは、視覚とテキストという多様なデータから統一的な表現を学習し、転移学習能力を向上させ、複数のモダリティを深く統合するために、小規模なエンコーダ‐デコーダアーキテクチャを組み合わせていました。
最近のGUIエージェントモデルのトレーニングでは、既存の大規模ビジョンLLMをさらに大規模な追加データセットで継続的に事前学習することが多く、この過程でモデルの一般知識が洗練され、バックボーンに新たなニューラルネットワークモジュールを組み込むことで、より堅固な基盤が構築されます。
fine tuning
大規模なビジョン・ランゲージモデル(VLM)や大規模言語モデル(LLM)を、GUIとの対話という専門領域に適応させるための主要戦略として台頭しています。
強化学習
初期のテキストベースエージェントであるWebGPT (Nakano et al., 2021) では、GPT-3ベースのモデルの情報検索能力向上のために強化学習(RL)が用いられていました。