水中ドローン研究

Q-attention: Enabling Efficient Learning for Vision-based Robotic Manipulation

観測画像からどこを操作すべきかのAttentionを計算し、それをもとにpolicyを学習

エージェントの画像空間とLLMの言語空間の対応づけができれば、強化学習においてLLMの事前知識を使えるのでは？

水中ドローンの強化学習で、構成的な制御タスクをLLMへのpromptingを利用することで学習効率上げられる説

画像→CLIPでキャプション(画質的にきつそう)→LLM→タスク分解→経路計画etc

ソナーからの3D情報なり、画像なり→なんかでキャプション→LLM→タスク分解→経路計画etc

画面見て、声で操作？

LLMはあくまで根本はテキストデータから統計的な傾向を学習しているので、テキスト化されやすい手続き的知識を要するタスク設定がよい(料理、プログラミングとか)

Visually-Grounded Planning without Vision: Language Models Infer Detailed Plans from High-level Instructions

ALFRED: A Benchmark for Interpreting Grounded Instructions for Everyday Tasks

LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action

Grounding Language with Visual Affordances over Unstructured Data

Leveraging Language for Accelerated Learning of Tool Manipulation

GCRL-Collection

水中ドローンはマルチモーダルな処理なので、基盤モデルと相性が良いはず

基盤モデルをシステムに組み込む or RT1応用 or RT1のドローン特化みたいなのでないかな

SayCan

実空間タスクプランニング

LATTE

自然言語指示で動作修正

CLIP-Fields

マップ上の空間的位置に対応するセマンティックな表現ベクトルを得られる

GNM: A General Navigation Model to Drive Any Robot

https://www.youtube.com/watch?v=ICeD6iOglKc

OUXT Polaris：ROS2を活用した自作自律航行船NavigationSystem概要

ChatGPTに制御させる

Neural Implicit Surface Reconstruction using Imaging Sonar(ICRA 2023)

水中ロボットの測位の話