ロボット基盤モデル
ロボットシステム
ロボットコントロール
ロボットインテリジェンス
Language and Robotics研究会
TRAIL(Tokyo Robotics and AI Lab)
ICRA2020論文100本サーベイ
シミュレーション
Simulation
MyCobotに色々なタスクをやらせる
自動運転
強化学習
世界モデル
ロボット基盤モデルとは?
ロボットは、ハードウェア・タスクごとに、特化して収集したデータセットを使ってポリシーを学習していた
変数として、ロボットの形態、センサ、タスク、環境などがあり、汎化性能を出すのは難しかった
ロボット基盤モデルは新しいドメインやロボットへのゼロショットまたはfew-shotでの汎化を可能にする
技術マップ-ロボティクス基盤モデル
https://ssii.jp/ssii/files/2024/technology_map/SSII2024_map_RF.pdf
RT-1:マルチモーダルなロボティクス基盤モデルへの期待 ~Robotics Transformer 1~
https://trail.t.u-tokyo.ac.jp/ja/blog/22-12-15-rt-1/
基盤モデル×Robotics Advent Calendar 2022
https://qiita.com/advent-calendar/2022/robot-ai
RFM-1
https://workwonders.jp/media/archives/3639/
RT-1-X
プランニング能力はなく、下位レベルの方策として使う
Octo
大規模ロボットデータセットで学習された汎用ロボット
https://ai-scholar.tech/articles/large-language-models/octo-generalist-robot
任意の入力トークンを出力トークンにマッピングする
RT-2-X
OpenVLA
Open X-Embodiment: Robotic Learning Datasets and RT-X Models
https://robotics-transformer-x.github.io/
【マルチモーダル情報処理セミナー2024④】対話ロボットにおける基盤モデルの利活用
https://www.youtube.com/watch?v=UW80NO1Zu3I
SayCan
Stretch AI
https://github.com/peiqi-liu/stretch_ai/tree/experiment
ロボットはAIの次なる主戦場か 世界最高峰のロボット国際会議「ICRA」【橋本幸治の理系通信】
https://www.youtube.com/watch?v=pkByVeZyF8U
Multimodal Situational Safety
https://github.com/eric-ai-lab/MSSBench
lerobot
https://github.com/huggingface/lerobot
LeLaN: Learning A Language-conditioned Navigation Policy from In-the-Wild Video
https://learning-language-navigation.github.io/
Real-world robot applications of foundation models: a review
https://www.tandfonline.com/doi/full/10.1080/01691864.2024.2408593#graphical-abstract
World models and predictive coding for cognitive and developmental robotics: frontiers and challenges
https://www.tandfonline.com/doi/full/10.1080/01691864.2023.2225232#abstract
physical intelligence
https://www.physicalintelligence.company/
Physical Intelligence is bringing general-purpose AI into the physical world. We are a group of engineers, scientists, roboticists, and company builders developing foundation models and learning algorithms to power the robots of today and the physically-actuated devices of the future.
Team
Kevin Black, Noah Brown, Danny Driess, Adnan Esmail, Michael Equi, Chelsea Finn, Nick Fusai, Dibya Ghosh, Lachy Groom, Karol Hausman, Brian Ichter, Szymon Jakubczak, Tim Jones, Kay Ke, Sergey Levine, Adrian Li-Bell, Mohith Mothukuri, Suraj Nair, Karl Pertsch, Lucy Shi, Laura Smith, James Tanner, Quan Vuong, Anna Walling, Haohuan Wang, Charles Xu, Ury Zhilinsky, and growing!
We are in the early stages of building, and plan on sharing more information soon! If you are interested in joining, please get in touch.
Investors
We are grateful for the support and partnership of Khosla Ventures, Lux Capital, OpenAI, Sequoia Capital, and Thrive Capital.
You can follow us on Twitter at @physical_int
intrinsic
NVIDIA と Alphabet 傘下の Intrinsic が次世代ロボティクスを現実のものに
https://blogs.nvidia.co.jp/blog/alphabet-intrinsic-robotics-isaac-manipulator/
A Vision-Language-Action Flow Model for General Robot Control
https://www.physicalintelligence.company/download/pi0.pdf
日経ロボティクス1月号
大規模言語モデルによるアプローチ(離散値)
拡散モデルによるアプローチ(連続値)
大規模言語モデルが持つ膨大な知識を活かしつつ、拡散モデルベースの器用さ・なめらかさを表現したものがπ0
ロボットを発達させるにはロボット工学の枠内だけで考えていても無意味であり、活発に進むAI領域での数理的な動向を逐一キャッチアップする必要がある
現在、ロボット用のソフトウェアはAI技術を使わず、人が個別にハードコーディングして、各市場にフィットさせているが、GPT4級の汎用モデルができたら、ソフト側のハードコーディングの作業がなくなる
最新の模倣学習 (SARNN, ACT, DiffusionPolicy) をシミュレーションや実世界のロボットで簡単に再現検証できるソフトウェア "RoboManipBaselines" を公開しました!
https://github.com/isri-aist/RoboManipBaselines
AGIBot Wolrd Alpha
https://huggingface.co/datasets/agibot-world/AgiBotWorld-Alpha
OmniManip
https://arxiv.org/abs/2501.03841
Beyond Sight: Finetuning Generalist Robot Policies with Heterogeneous Sensors via Language Grounding
https://arxiv.org/abs/2501.04693
https://a03.hm-f.jp/index.php?action=ViewPublicBnMail&mid=85&gid=15&aid=946&bn_code=847b025ee8c0f2d5466573219aa1245f
FAST: Efficient Action Tokenization for Vision-Language-Action Models
https://arxiv.org/abs/2501.09747
Pre-training Auto-regressive Robotic Models with 4D Representations
https://arxiv.org/abs/2502.13142
RAI is a flexible AI agent framework to develop and deploy Embodied AI features for your robots.
https://github.com/RobotecAI/rai
GROOT N1でロボットを開発する流れ
https://note.com/kawamura_akihiro/n/nd575d242f85a
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects
https://nvlabs.github.io/FoundationPose/
SMART-LLM: Smart Multi-Agent Robot Task Planning using Large Language Models
https://arxiv.org/abs/2309.10062
RoboScape: Physics-informed Embodied World Model
https://arxiv.org/abs/2506.23135
現在の実体化世界モデルは物理的一貫性が欠如し、接触豊富なロボットシナリオで非現実的な映像を生成する問題がある。この研究では RGB 映像生成と物理知識を統合フレームワークで共同学習する統一型物理情報世界モデルを開発。
Real-World Robot Applications of Foundation Models: A Review
https://arxiv.org/pdf/2402.05741
Vision-Language-Action Models for Robotics: A Review Towards Real-World Applications
https://vla-survey.github.io/