第13回 Language and Robotics研究会
今回のLangRobo研究会では、NTTの西田 京介先生、壹岐 太一先生から最近のご研究についてご紹介いただきます。 特に、複数エージェントによる表現学習と記号の創発に関する研究について、お話いただきます。
講演者:西田 京介先生, 壹岐 太一 先生 (NTT 人間情報研究所)
発表タイトル:Collaborative AI: 視覚・言語・行動の融合
概要:ChatGPTやGPT-4の成功により,汎用人工知能の実現は遠い夢では無くなった.特にGPT-4は,視覚と言語のマルチモーダルモデルとして,人のように視覚情報を通じて世界を理解し,他者と優れたコミュニケーションができるレベルへ到達したと考える.AIをさらに進化させ人々のwell-beingに貢献していくためには,あらゆる環境で人(あるいはAI)と自然に協調して行動できる能力が必要である.本講演では,LLMをベースとした視覚と言語の融合理解,そして,現実世界の良い縮図と言えるPC環境において人と協働できる汎用ソフトウェアロボットに関する研究について最新の動向を紹介する.
個人的まとめ
GPT-4をはじめとする高度なLLM
ツールを使って現実世界といかに相互作用していくか
人や実世界と連携・協働するうえでのインターフェースが重要
環境・ユーザーとのインタラクションを考慮した研究開発の本格化
Web navigationタスク
汎用性の実現にはDOMに頼らないキー、マウス操作のような手段を確保したい
ソフトウェアやロボットで自動化
画面理解のため、アノテーションされた(キャプション、メタデータ、操作記録つき)スクリーンショットを学習
ファインチューニングしたReAcT、WebGUMなどが最先端
https://gyazo.com/3fb9f45f7fc3bc3fbde2ffaee2a6f1bb
概要
ChatGPTやGPT-4の成功により,汎用人工知能の実現は遠い夢では無くなった.特にGPT-4は,視覚と言語のマルチモーダルモデルとして,人のように視覚情報を通じて世界を理解し,他者と優れたコミュニケーションができるレベルへ到達したと考える.AIをさらに進化させ人々のwell-beingに貢献していくためには,あらゆる環境で人(あるいはAI)と自然に協調して行動できる能力が必要である.本講演では,LLMをベースとした視覚と言語の融合理解,そして,現実世界の良い縮図と言えるPC環境において人と協働できる汎用ソフトウェアロボットに関する研究について最新の動向を紹介する.
https://gyazo.com/f893efb4b097d05da94c27f842317ead
https://gyazo.com/fe735b897131858b6671ff7803a62689
GPT-4の2段階前身
Webから大量のテキストを収集してLLM学習
指示に対して望ましい応答を作成して教示あり学習(SFT)
報酬モデルを学習
https://gyazo.com/1d514a24721575a52aae8aa1b42ecb5d
対話に最適化
望ましい対話データを大量に作成してSFT
大量のテキスト・画像付テキストを収集してLLMを学習
望ましい画像付データを多量に作成してSFT
GPT-4が司法試験をパス
法律の専門家である著者らが、legal force multiplierがついに実現したと主張
クラウドワーカ以上の能力
silloi.icon 三人寄れば文殊の知恵?
https://gyazo.com/3b581fb0f08cab85228ed89d823d0d76
https://gyazo.com/a4ceb104b69e8c441e05d89d923f518d
お絵描き
TeXのコードでユニコーンを書いてください
「道具」を使って不得意な部分を補えるようになった
インターネットを介した最新情報へのアクセスや数値計算など
現状は言語中心だが、今後Visionも連携していくのは確実
MS
『言語を地球上で最も強力な生産性向上ツールに変えます。』
言語がいろんなモーダルの中心に
https://gyazo.com/93ba2d7085051a0dda60cbeb5aaf5f2b
多様なモデルを疎結合して連携
リクエストに従ってタスク系列をプランニングし、各タスクに適切なAIモデルを選択して実行
追加の学習は行わず例示で実現
https://gyazo.com/6a5650688b5c99d04a507084694812b6
+抽出結果をファイル保存
最終ゴールを与えらえると、GPT-4が自律的に必要なサブタスクに分解
ネットやその他ツールを使ってプランを修正しながらゴールを達成
https://gyazo.com/47755f8e9c34938adb85c0ba123a01fe
PCを使って人+AIができることが自動化されていく
https://gyazo.com/9a01c2d443a6d99de42ac88ac5f550c8
4bit量子化推論をサポート
LLMを動作させる障壁が下がってきている
https://gyazo.com/03785d85b8ce41dc7fc6ea307b60ff7f
BLIP-2の画像エンコーダ、Vicunaを組み合わせてGPT-4ライクなモデルを低コストに作成
よいモデルをどう組み合わせ、どう学習するか?が大事になってきた
メタ的な部分の発展
私たちが目指しているもの
https://gyazo.com/64fe790469cb6ef9911ecc3d535ea3e2
人と自然に協調可能な汎用AI
思考エンジンを創り、人々のwell-being
https://gyazo.com/ed0722923d6f10e92ee2d979cc6497f7
人と自然に協調可能な汎用AI
タスクを遂行しているのが人かAIかを区別する必要がない
APIを持たないソフトウェアには現状手出しできない
人と同じ入出力
身体性?
https://gyazo.com/5e0d7c3871cfb9b524d472c7061163e8
画像のピクセルレベルから
https://gyazo.com/64b8d4f3ef8c1e95f2b51d709c1c94ce
複数枚の画像集合(プレゼン資料)にまたがる質問応答タスク
日本語の視覚的読解モデルの構築
日本語文書でもデータを収集してモデルを構築
行動の融合へどこから始めるか
https://gyazo.com/22e266d16e8b5c101b13e84aba002d15
現実世界の良い縮図であるPC環境
人と対話的に協働できる汎用ソフトウェアロボット
silloi.icon 実世界や行動への人とのAI融合においてはUIデザインが鍵
PC環境において人と共同できる汎用ソフトウェアロボットの最新動向
https://gyazo.com/c85786ca79963c15cb3526dcbdbafdae
既存のソフトウェアによる自動化
https://gyazo.com/629bb4489c2964d4ed027a726e3c18f8
人が分解
必要な技術要素の整理
https://gyazo.com/d511295e1791a21ea420dcdbdb3192c7
silloi.icon KISSでスクショが撮れれば便利なのではないか
https://gyazo.com/fa429a87d155656ac0f01f3cc40039ea
行動は
https://gyazo.com/fa429a87d155656ac0f01f3cc40039ea
インタラクティブ可能な要素にIDを割り当て、clickやinputを行動の単位とすることが多い
ベンチマークテスト
World of Bits
https://gyazo.com/0c11a264d08545840b8d2ea3891fe82a
MiniWoB++
ミニウォブ
https://gyazo.com/9cd4d4ced319f9e8215960f32e4c4111
UI・画面理解 1/2
https://gyazo.com/b7fb2e62b6d2a877bc98887640899a35https://gyazo.com/c10645d13cdc87d176e2036cc7a87068
UI・画面理解の研究も盛んに行われ、リソースの蓄積が進む
主にスマートフォン中心
スクリーンショット・メタデータ・操作記録
UIの要素に対してキャプションをつけた
スクリーン全体に対して要約キャプションをつける
40万件のwebページのスクリーンショット
Web navigationモデル
まだ人間の理解には追いついていないが
効率的な探索で改良を目指した研究
https://gyazo.com/e7178adac968f5e14d1608d1c24946eb
強化学習において、行動空間が大きい
効率的なサンプリングを目指す
WGE
行動を制約するworkflowを導入
QWeb
カリキュラムを導入
人間の成績とはギャップ
適用範囲もあまり広くない
CC-Net
https://gyazo.com/02d8cad424561b79f96dd0b7dccdb904
大規模データの導入で性能を大幅更新
Transformerを事前学習(Behavior cloning)してから強化学習
6000時間は多すぎ!
減らしたい
MMLで可能になった
ReAcT
https://gyazo.com/405c99c8a8c3f62902d42c23f8f6f478
行動決定に利用するための工夫
https://gyazo.com/cd1778ac4a58204c10d2e1773e352f78
行動に加えて思考過程も例示
LLMが思考過程を出力
RCI
WebGUM
https://gyazo.com/95f0712aa323b690feb86cc981ffd314
MiniWoB++の学習データを既存モデルやスクリプトを使って自動で用意し、Flan-T5言語モデルをファインチューニング
複数のにモデルを適用あんまりない
今後の方向性
LLM・基盤モデル+ツールのパラダイム
https://gyazo.com/f02c27b300fea83836ea3c5e50ffe1fc
物理もバーチャルも統一的に扱える
Tool learning
TaskMatrix.AI
MM-REACT
https://gyazo.com/860fdf378f8d6cca4bc7be833572c982
LLM + vision experts
Vision experts: Azure Cognitive Services API
自発的にイメージキャプショニング
https://gyazo.com/d166908b0dfd0ce935854a3464ae1030
高度な言語モデルとツールが融合するパラダイム
今後の方向性
https://gyazo.com/ccd3be289fe633e3d871a68683f0a1f2
二つの方向性
ツール
頭脳
協働に適したインターフェースとは
GUI Expert
https://gyazo.com/a4bcda43c07382b9c8ece614d0d59094
GUIとLLM・基盤モデルの中会をするGUI
真の汎用性の実現にはWebブラウザ(DOM)などの特定のソフトウェアに依存しないキー、マウス操作のような手段を確保したい
PC上の身体の実現?
既存の資源を使って構築できるか
UI・画像理解のデータ資源を活用
文書画像読解の技術が役立つ可能性
仮想世界・実世界をつなぐ基盤モデル
https://gyazo.com/f3b2f98b40a46a19daaacae94654f363
協働に適したインターフェースの追求
https://gyazo.com/519c810161d17fd94ad2213461dd8fca
環境とのインタラクション
ユーザーとのインタラクション
セクションのまとめ
https://gyazo.com/c06cc7edfe884b8275fc2dceb4b9fcdf
まとめ
https://gyazo.com/7c832fdcd17b098abf83e153d3516761
質疑応答
Web navigation
活発化
MiniWob++(2017〜)ごろから活発化
それ以前にも指示をアクションに変更する研究はNLPの分野でいくつか例があった
2015年ごろから?
国際会議
いろいろ
たとえばNLPだとTNLLP、ACA
機械学習でICLR
ロボットとAPI
ハイレベルとローレベル
スキル・スキルセット