Reward-rational (implicit) choice: A unifying formalism for reward learning

ある課題に対して正しい報酬関数が何であるかを手で特定することは困難な場合が多いため、研究者は代わりに人間の行動やフィードバックから報酬関数を学習することを目標としてきた。報酬関数の証拠として解釈される行動の種類は、近年、大きく広がっている。デモンストレーションから、比較、そして人間がロボットを押しのけたり、電源を切ったりするときに漏れる情報を読み取るようになりました。そしてきっと、まだまだ続くのでしょう。このような多様な行動を、ロボットはどのように理解するのでしょうか？私たちの重要な洞察は、異なるタイプの行動は、単一の統一的な形式論で解釈できるということです。それは、人間がしばしば暗黙のうちに行っている報酬-合理的選択としてです。この形式論は、過去の研究を見るための統一的なレンズであると同時に、まだ解明されていない新しい情報源を解釈するためのレシピでもあるのです。ここでは、新しいフィードバックタイプの解釈と、フィードバックの選択自体が報酬に関する情報をどのように漏らしているかを読み取るという2つの例を紹介する。

Hong Jun Jeon, Smitha Milli, Anca D. Dragan

Submitted on 12 Feb 2020 (v1), last revised 11 Dec 2020 (this version, v4)

https://arxiv.org/abs/2002.04833