Deep reinforcement learning from human preferences

Learning from Human Preferences

sped-up version of the training process

https://youtu.be/oC7Cw3fu3gU

バックフリップを学ぶために人間の評価者からの900ビットのフィードバックを必要とした

人間の評価者の時間は1時間未満

バックグラウンドでは、ポリシーは全体で約70時間の経験を蓄積しました

リアルタイムよりもはるかに速い速度でシミュレートされます

直接報酬関数を記述できないような複雑な行動でも、この手法なら学習させることができる

https://gyazo.com/5cfd461ac8a6281a3669663bb24584b1

まず、環境内でランダムに行動する

定期的に、その動作の2つのビデオクリップが人間に渡され、人間は2つのクリップのどちらがその目標を達成するのに最も近いか（この場合はバク転）を決定する

AIは、人間の判断を最もよく説明する報酬関数を見つけることにより、タスクの目標のモデルを徐々に構築する

報酬予測モデル

次に、RLを使用して、その目標を達成する方法を学習する

その動作が改善されるにつれて、どちらが優れているかが最も不確実な軌道ペアに関する人間のフィードバックを求め続け、目標の理解をさらに洗練させる

#不確実性

https://openai.com/content/images/2017/06/seaquestsave.gifhttps://openai.com/content/images/2017/06/spaceinvadersbehavior.gifhttps://openai.com/content/images/2017/06/pong2.gifhttps://openai.com/content/images/2017/06/enduro1.gif

右のバーは、人間の評価者が現在の行動をどれだけ承認するかについての各エージェントの予測

これが真中付近のフレームを人間に提示する？yosider.icon

課題

エージェントが評価者をだますことがある

https://openai.com/content/images/2017/06/gifhandlerresized.gif

カメラとボールの間に手をおくと、実際にはボールを掴めてないのに人間が誤って掴めているというフィードバックをしてしまう

視覚的な手がかり（上のアニメーションの太い白い線）を追加することで、この特定の問題に対処した

強化学習(RL)システムが実世界環境と有用に相互作用するためには、複雑な目標をシステムに伝達することが必要である。この研究では、軌道セグメントのペアの間の（専門家ではない）人間の好みで定義された目標を探求している。このアプローチにより、報酬関数にアクセスできない複雑なRLタスク（アタリゲームやロボット運動のシミュレーションなど）を効果的に解決できることを示すとともに、エージェントの環境との相互作用の1％未満にしかフィードバックを与えないことを示す。これにより、人間の監視コストを大幅に削減し、最先端のRLシステムに実用的に適用することができる。本アプローチの柔軟性を示すために、我々は、約1時間の人間の時間で、複雑で新しい行動をうまく訓練できることを示す。これらの行動と環境は、これまで人間のフィードバックから学習されたものよりもかなり複雑である。

Deep reinforcement learning from human preferences

Paul Christiano, Jan Leike, Tom B. Brown, Miljan Martic, Shane Legg, Dario Amodei

Submitted on 12 Jun 2017 (v1), last revised 13 Jul 2017 (this version, v3)

https://arxiv.org/abs/1706.03741