強化学習アーキテクチャ
public.icon
箱庭上での強化学習のアーキテクチャは下図の通りです。
エージェント側をPythonプログラムで作成して、ロボットを強化学習します。
環境側は、「箱庭環境」です。箱庭環境に対して、エージェントがアクションを実行すると、アクション実行した結果として、観測と報酬が返ります。 https://qiita-user-contents.imgix.net/https%3A%2F%2Fqiita-image-store.s3.ap-northeast-1.amazonaws.com%2F0%2F244147%2F0e2ee4cb-4950-1d13-2899-6d0b76b1f130.png?ixlib=rb-4.0.0&auto=format&gif-q=60&q=75&s=a5b6102805f9f5e42074a67f77c13c8e#.png https://camo.qiitausercontent.com/4fab32ef23318f9fd24ea306f83fc175ab66f828/68747470733a2f2f71696974612d696d6167652d73746f72652e73332e61702d6e6f727468656173742d312e616d617a6f6e6177732e636f6d2f302f3234343134372f30653265653463622d343935302d316431332d323839392d3664306237366231663133302e706e67
このオペレーションを繰り返すことで強化学習ができます。なお、エージェント側と箱庭環境は、シミュレーション時間同期をしていますので、ここで学習したプログラムを実機ロボット用の開発言語(C言語等)に変換すれば、タイミングレベルでの精度が保証された学習済みプログラムを実機ロボットに適用できます(はずです)。
Windows版の実装レベルのアーキテクチャは下図の通りです。
割と人間そのものなんだな
メタ環境(箱庭)を作ってそこで実行する
@inoue2002.iconといった初台の展示もなんかこんなロボットなかっ
同じだと思うtkgshn.icon*3