Reward is enough
この論文の主題
強化学習の報酬を最大化するアルゴリズムで知性を説明できるのではないか
何故この論文を読んだか
人工知能が人間と変わらない能力を持つ未来に興味がある。(汎用型人工知能)
自己紹介
人工知能の生命感を模索するのが好きで、一発芸で色々作ってきた。
https://gyazo.com/14c7bb5f5313e70e562c879a5b3ebfbf
(学習済みモデルの出力をSNSのいいねでバリエーションを変えることで、自律的人工アーティストの実現を目指す実験)
https://gyazo.com/29ffbc7e62fbc52b853d6ffdacb30e0e
(ルンバのアルゴリズムに生命感を見出した作品)
https://gyazo.com/3fa008ed274a486494c4f9d25b2e7a31
(Virtual Presence / brav(e/o) new world)
色々やっているが、根幹のテーマとして、機械や、人工知能の無機物に生命感など持っていないけど感じられる気配に注目して作品制作を行ってきた。
しかし、人工知能それ自体が知能を持つ方向性の研究は行ってこなかった。
汎用型人工知能が実現された時に世界はどう変わるのか?
概要
この論文では、知能とそれに関連する能力は、報酬の最大化に資するものとして理解することができるという仮説を立てている。
報酬は、知識、学習、知覚、社会的知能、言語、一般化、模倣など、自然知能や人工知能で研究されている能力を発揮する行動を引き起こすのに十分である。
報酬を最大化するために試行錯誤の経験を通じて学習するエージェントは、これらの能力の全てではないにしても、そのほとんどを示す行動を学習することができ、したがって、強力な強化学習エージェントが汎用型人工知能の解決策を構成することができることを示唆するものである。
議論
本当に単一の目標さえ設定できれば、汎用型人工知能は可能か?
もし、可能だとしたら、今までの人類は何の報酬を最大化するために進化してきて、現在の人類は何の報酬の最大化の為に生きているのか?
そもそも
動物と人間の行動における知性の表現は非常に豊富で多様。
(社会的知性、言語、知覚、記憶、運動能力、想像力など、一つ一つに名前をつけて研究されているくらいに。)
それらの能力を統合的に動作させ汎用型人工知能を実現させるためには、どうすれば良いだろうか?
現在の方向性
各能力を個別に考える。
社会的知能 ー マルチエージェントシステム
言語能力 ー 構文解析、品詞のタグ付け、感情分析
知覚能力 ー 画像認識、セマンティックセグメンテーション
この論文では、現在の方向性とは逆張りしている。
報酬の最大化するという目的さえ設定し与えると、ほとんどの能力を統合的に動作させるのに十分なのではないか。
動物や人間が存在する自然界は非常に複雑で、おそらく将来人工知能が直面する環境も複雑である。
それらの環境で成功する。(例:生き残る)には高度な能力が必要。
↓
したがって、報酬を最大化させるためには様々な能力を必然的に発揮する必要がある。
報酬を最大化させるという目的があるのならば、強化学習で解決できるのではないか。
https://gyazo.com/dc958e211c652b36b0f2a47db1792540
例:リス
リスの脳は、リスの体から感覚を受け取り、運動コマンドを送信する意思決定システムとして理解できます。
リスの行動は、満腹感(負の空腹感)などの累積的な報酬を最大化するものとして設定されている。
リスが空腹を最小限に抑えるためには、
リスの脳は
知覚(良いナッツを識別する)
知識(ナッツを理解する)、
運動制御(ナッツを集める)、
計画(ナッツを隠す場所を選択する)の能力を持っている必要があります、
メモリ(隠したナッツの場所を思い出すため)
ソーシャルインテリジェンス(キャッシュされたナッツの場所についてブラフし、盗まれないようにするため)
したがって、知性に関連するこれらの能力のそれぞれは、飢餓の最小化という単一の目標を達成するものとして理解することができる。
これをロボットに当てはめてみる
キッチンロボットは、ロボットの体から感覚を受け取り、アクチュエータコマンドをロボットの体に送る意思決定システムとして実装され得る。
キッチンロボットの唯一の目標は、清潔さを測定する報酬信号を最大化することです。
キッチンロボットが清潔さを最大化するためには、
知覚能力(清潔な器具と汚れた器具を区別する)
知識(器具を理解する)
運動制御(器具を操作する)
記憶(器具の位置を思い出す)
言語(対話から将来の混乱を予測するため)
社会的知能(幼児が混乱を少なくするように促すため)。
したがって、清潔さを最大化する行動は、その単一の目標を達成するためにこれらすべての能力を生み出さなければならない。
知能に関する能力が、報酬の最大化という唯一の目標に対する解決策として生まれる場合、なぜそのような能力が生まれるかを説明できる。
例:ワニを分類する能力はワニに食べられないようにするため。
各能力が、それ自身の特殊な目標(それぞれに設定された目的)に対する解決策である場合、(ワニと丸太を識別する)なぜ、識別するのか?は説明できない。
よって、それぞれの能力は、それぞれの能力に設定された目標のためではなく、単一の目標のために人間、動物に実装されたと言えるのではないか。
報酬の最大化が知能問題を理解するのに適した目的であることが分かった。
結論
総報酬の最大化が、知性とそれらに関する能力を説明するのに十分なのではないか?という仮説を提示した。重要な点は、報酬の最大化という単一の目標は、それぞれの異なる能力に特化した問題の定式化よりも、能力をより深く、広く、より統合された理解をもたらす可能性がある。特に、知識、学習、知覚、社会的知能、言語、一般化、模倣、一般知能など、一見すると報酬最大化だけでは理解が難しいと思われるいくつかの能力をより深く探求し、報酬最大化がそれぞれの能力を理解するための基礎となり得ることを明らかにしました。
最後に、将来、十分に強力な強化学習エージェントから、実際に知性が出現する可能性がある。この仮説が正しければ、人工的な一般知能を理解し構築するための直接的な道筋を提供することになる。