第13回 Language and Robotics研究会

https://langrobo.connpass.com/event/275632

今回のLangRobo研究会では、NTTの西田京介先生、壹岐太一先生から最近のご研究についてご紹介いただきます。特に、複数エージェントによる表現学習と記号の創発に関する研究について、お話いただきます。

講演者：西田京介先生, 壹岐太一先生 (NTT 人間情報研究所)

発表タイトル：Collaborative AI: 視覚・言語・行動の融合

概要：ChatGPTやGPT-4の成功により，汎用人工知能の実現は遠い夢では無くなった．特にGPT-4は，視覚と言語のマルチモーダルモデルとして，人のように視覚情報を通じて世界を理解し，他者と優れたコミュニケーションができるレベルへ到達したと考える．AIをさらに進化させ人々のwell-beingに貢献していくためには，あらゆる環境で人（あるいはAI）と自然に協調して行動できる能力が必要である．本講演では，LLMをベースとした視覚と言語の融合理解，そして，現実世界の良い縮図と言えるPC環境において人と協働できる汎用ソフトウェアロボットに関する研究について最新の動向を紹介する．

https://app.sli.do/event/5SZderx76e6j9XgHj7dxZB

個人的まとめ

GPT-4をはじめとする高度なLLM

ツールを使って現実世界といかに相互作用していくか

LLM・基盤モデル＋ツールのパラダイムの下で自動化が加速

人や実世界と連携・協働するうえでのインターフェースが重要

環境・ユーザーとのインタラクションを考慮した研究開発の本格化

Web navigationタスク

汎用性の実現にはDOMに頼らないキー、マウス操作のような手段を確保したい

ソフトウェアやロボットで自動化

画面理解のため、アノテーションされた（キャプション、メタデータ、操作記録つき）スクリーンショットを学習

ファインチューニングしたReAcT、WebGUMなどが最先端

https://gyazo.com/3fb9f45f7fc3bc3fbde2ffaee2a6f1bb

Collaborative AI: 視覚・言語・行動の融合

概要

ChatGPTやGPT-4の成功により，汎用人工知能の実現は遠い夢では無くなった．特にGPT-4は，視覚と言語のマルチモーダルモデルとして，人のように視覚情報を通じて世界を理解し，他者と優れたコミュニケーションができるレベルへ到達したと考える．AIをさらに進化させ人々のwell-beingに貢献していくためには，あらゆる環境で人（あるいはAI）と自然に協調して行動できる能力が必要である．本講演では，LLMをベースとした視覚と言語の融合理解，そして，現実世界の良い縮図と言えるPC環境において人と協働できる汎用ソフトウェアロボットに関する研究について最新の動向を紹介する．

NTT

Collaborative AI

https://gyazo.com/f893efb4b097d05da94c27f842317ead

GPTモデル

GPT-4

sparks of AGI

InstructGPTの作り方

https://gyazo.com/fe735b897131858b6671ff7803a62689

GPT-4の2段階前身

Webから大量のテキストを収集してLLM学習

指示に対して望ましい応答を作成して教示あり学習（SFT）

報酬モデルを学習

ChatGPTの作り方

https://gyazo.com/1d514a24721575a52aae8aa1b42ecb5d

対話に最適化

望ましい対話データを大量に作成してSFT

GPT-4の作り方

大量のテキスト・画像付テキストを収集してLLMを学習

望ましい画像付データを多量に作成してSFT

GPT-4が司法試験をパス

zero-shotにて合格点

法律の専門家である著者らが、legal force multiplierがついに実現したと主張

クラウドワーカ以上の能力

silloi.icon 三人寄れば文殊の知恵？

VQAベンチマーク

https://gyazo.com/3b581fb0f08cab85228ed89d823d0d76

GPT-4による資格言語理解例

https://gyazo.com/a4ceb104b69e8c441e05d89d923f518d

お絵描き

TeXのコードでユニコーンを書いてください

ChatGPT Plugins

「道具」を使って不得意な部分を補えるようになった

インターネットを介した最新情報へのアクセスや数値計算など

現状は言語中心だが、今後Visionも連携していくのは確実

Co-pilot 365

『言語を地球上で最も強力な生産性向上ツールに変えます。』

言語がいろんなモーダルの中心に

JARVIS (HuggingGPT)

https://gyazo.com/93ba2d7085051a0dda60cbeb5aaf5f2b

多様なモデルを疎結合して連携

リクエストに従ってタスク系列をプランニングし、各タスクに適切なAIモデルを選択して実行

追加の学習は行わず例示で実現

AutoGPT

https://gyazo.com/6a5650688b5c99d04a507084694812b6

＋抽出結果をファイル保存

最終ゴールを与えらえると、GPT-4が自律的に必要なサブタスクに分解

ネットやその他ツールを使ってプランを修正しながらゴールを達成

https://gyazo.com/47755f8e9c34938adb85c0ba123a01fe

PCを使って人＋AIができることが自動化されていく

llama.cpp

https://gyazo.com/9a01c2d443a6d99de42ac88ac5f550c8

4bit量子化推論をサポート

LLMを動作させる障壁が下がってきている

MiniGPT-4

https://gyazo.com/03785d85b8ce41dc7fc6ea307b60ff7f

BLIP-2の画像エンコーダ、Vicunaを組み合わせてGPT-4ライクなモデルを低コストに作成

よいモデルをどう組み合わせ、どう学習するか？が大事になってきた

メタ的な部分の発展

私たちが目指しているもの

https://gyazo.com/64fe790469cb6ef9911ecc3d535ea3e2

人と自然に協調可能な汎用AI

思考エンジンを創り、人々のwell-being

Collaborative AIを目指して

https://gyazo.com/ed0722923d6f10e92ee2d979cc6497f7

人と自然に協調可能な汎用AI

タスクを遂行しているのが人かAIかを区別する必要がない

APIを持たないソフトウェアには現状手出しできない

人と同じ入出力

身体性？

VisualMRC

https://gyazo.com/5e0d7c3871cfb9b524d472c7061163e8

画像のピクセルレベルから

SlideVQA

https://gyazo.com/64b8d4f3ef8c1e95f2b51d709c1c94ce

複数枚の画像集合（プレゼン資料）にまたがる質問応答タスク

日本語の視覚的読解モデルの構築

日本語文書でもデータを収集してモデルを構築

行動の融合へどこから始めるか

https://gyazo.com/22e266d16e8b5c101b13e84aba002d15

現実世界の良い縮図であるPC環境

人と対話的に協働できる汎用ソフトウェアロボット

silloi.icon 実世界や行動への人とのAI融合においてはUIデザインが鍵

PC環境において人と共同できる汎用ソフトウェアロボットの最新動向

https://gyazo.com/c85786ca79963c15cb3526dcbdbafdae

既存のソフトウェアによる自動化

https://gyazo.com/629bb4489c2964d4ed027a726e3c18f8

人が分解

必要な技術要素の整理

https://gyazo.com/d511295e1791a21ea420dcdbdb3192c7

silloi.icon KISSでスクショが撮れれば便利なのではないか

Web navigation

https://gyazo.com/fa429a87d155656ac0f01f3cc40039ea

行動は

https://gyazo.com/fa429a87d155656ac0f01f3cc40039ea

インタラクティブ可能な要素にIDを割り当て、clickやinputを行動の単位とすることが多い

ベンチマークテスト

World of Bits

https://gyazo.com/0c11a264d08545840b8d2ea3891fe82a

MiniWoB++

ミニウォブ

https://gyazo.com/9cd4d4ced319f9e8215960f32e4c4111

UI・画面理解 1/2

https://gyazo.com/b7fb2e62b6d2a877bc98887640899a35https://gyazo.com/c10645d13cdc87d176e2036cc7a87068

UI・画面理解の研究も盛んに行われ、リソースの蓄積が進む

主にスマートフォン中心

Rico

スクリーンショット・メタデータ・操作記録

Widget-captions

UIの要素に対してキャプションをつけた

Screen2Words

スクリーン全体に対して要約キャプションをつける

WebUI

40万件のwebページのスクリーンショット

Web navigationモデル

まだ人間の理解には追いついていないが

効率的な探索で改良を目指した研究

https://gyazo.com/e7178adac968f5e14d1608d1c24946eb

強化学習において、行動空間が大きい

効率的なサンプリングを目指す

WGE

行動を制約するworkflowを導入

QWeb

カリキュラムを導入

人間の成績とはギャップ

適用範囲もあまり広くない

CC-Net

https://gyazo.com/02d8cad424561b79f96dd0b7dccdb904

大規模データの導入で性能を大幅更新

Transformerを事前学習（Behavior cloning）してから強化学習

6000時間は多すぎ！

減らしたい

MMLで可能になった

ReAcT

https://gyazo.com/405c99c8a8c3f62902d42c23f8f6f478

行動決定に利用するための工夫

https://gyazo.com/cd1778ac4a58204c10d2e1773e352f78

行動に加えて思考過程も例示

LLMが思考過程を出力

RCI

WebGUM

https://gyazo.com/95f0712aa323b690feb86cc981ffd314

MiniWoB++の学習データを既存モデルやスクリプトを使って自動で用意し、Flan-T5言語モデルをファインチューニング

複数のにモデルを適用あんまりない

今後の方向性

LLM・基盤モデル＋ツールのパラダイム

https://gyazo.com/f02c27b300fea83836ea3c5e50ffe1fc

物理もバーチャルも統一的に扱える

Tool learning

TaskMatrix.AI

MM-REACT

https://gyazo.com/860fdf378f8d6cca4bc7be833572c982

LLM + vision experts

Vision experts: Azure Cognitive Services API

自発的にイメージキャプショニング

https://gyazo.com/d166908b0dfd0ce935854a3464ae1030

高度な言語モデルとツールが融合するパラダイム

今後の方向性

https://gyazo.com/ccd3be289fe633e3d871a68683f0a1f2

LLM・基盤モデル＋ツールのパラダイムの下でソフトウェアロボットによる自動化研究が加速？

二つの方向性

ツール

頭脳

協働に適したインターフェースとは

GUI Expert

https://gyazo.com/a4bcda43c07382b9c8ece614d0d59094

GUIとLLM・基盤モデルの中会をするGUI

真の汎用性の実現にはWebブラウザ（DOM）などの特定のソフトウェアに依存しないキー、マウス操作のような手段を確保したい

PC上の身体の実現？

既存の資源を使って構築できるか

UI・画像理解のデータ資源を活用

文書画像読解の技術が役立つ可能性

仮想世界・実世界をつなぐ基盤モデル

https://gyazo.com/f3b2f98b40a46a19daaacae94654f363

協働に適したインターフェースの追求

https://gyazo.com/519c810161d17fd94ad2213461dd8fca

環境とのインタラクション

ユーザーとのインタラクション

セクションのまとめ

https://gyazo.com/c06cc7edfe884b8275fc2dceb4b9fcdf

まとめ

https://gyazo.com/7c832fdcd17b098abf83e153d3516761

質疑応答

Web navigation

活発化

MiniWob++（2017〜）ごろから活発化

それ以前にも指示をアクションに変更する研究はNLPの分野でいくつか例があった

2015年ごろから？

国際会議

いろいろ

たとえばNLPだとTNLLP、ACA

機械学習でICLR

ロボットとAPI

ハイレベルとローレベル

スキル・スキルセット

Zoom講演のノートをScrapboxで取ってみた