動的計画法
基本的な考え方
ある問題を部分問題に分解し、それらの解を用いて元の問題に答える
状態の選び方 = どのような部分問題に分解するか
状態遷移 = 部分問題の解から元の問題の解をどうやって得るか
「最後まで見ないとわからない」ような問題を、区別すべき全状態を尽くす表に記録していくことで、逐次的に見ていけば済むようにする
全探索との違い
全状態を埋めるという意味では全探索?
結果をメモしている分速くなる?
強化学習が動的計画法の一種だということが実感できたyosider.icon 動的計画法として考えると強化学習のいろんなアルゴリズムって相当色々工夫してるな