方策勾配法
方策を関数としてそのパラメータを学習の対象とする手法.
行動のパターンが大量にある場合など,行動価値関数の設定のコストが大きい場合に取られる.
具体的な手法
REINFORCE