水中ドローン研究
Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation
観測画像からどこを操作すべきかのAttentionを計算し、それをもとにpolicyを学習
エージェントの画像空間とLLMの言語空間の対応づけができれば、強化学習においてLLMの事前知識を使えるのでは?
水中ドローンの強化学習で、構成的な制御タスクをLLMへのpromptingを利用することで学習効率上げられる説
画像→CLIPでキャプション(画質的にきつそう)→LLM→タスク分解→経路計画etc
ソナーからの3D情報なり、画像なり→なんかでキャプション→LLM→タスク分解→経路計画etc
画面見て、声で操作?
LLMはあくまで根本はテキストデータから統計的な傾向を学習しているので、テキスト化されやすい手続き的知識を要するタスク設定がよい(料理、プログラミングとか)
Visually-Grounded Planning without Vision: Language Models Infer Detailed Plans from High-level Instructions
ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action
Grounding Language with Visual Affordances over Unstructured Data
Leveraging Language for Accelerated Learning of Tool Manipulation
GCRL-Collection
水中ドローンはマルチモーダルな処理なので、基盤モデルと相性が良いはず
基盤モデルをシステムに組み込む or RT1応用 or RT1のドローン特化みたいなのでないかな
SayCan
実空間タスクプランニング
LATTE
自然言語指示で動作修正
CLIP-Fields
マップ上の空間的位置に対応するセマンティックな表現ベクトルを得られる
GNM: A General Navigation Model to Drive Any Robot
https://www.youtube.com/watch?v=ICeD6iOglKc
OUXT Polaris:ROS2を活用した自作自律航行船NavigationSystem概要
ChatGPTに制御させる
Neural Implicit Surface Reconstruction using Imaging Sonar(ICRA 2023)
水中ロボットの測位の話