方策勾配法
方策
を
関数
としてその
パラメータ
を
学習
の対象とする手法.
行動
のパターンが大量にある場合など,
行動価値関数
の設定のコストが大きい場合に取られる.
具体的な手法
REINFORCE