bb5450697118009
http://nhiro.org.s3.amazonaws.com/2/5/25b22b9348c678136c440f82d8ca079e.jpg https://gyazo.com/25b22b9348c678136c440f82d8ca079e
(OCR text)
前回のおさらい
元のMDPがD次元ならbelief MDPの信念状態6は
BERDになって大変
幸いbelief MDP上の価値関数Vは区分線形で下に
凸なので、D次元ベクトルの集合で効率的に表現
できる
しかし厳密に計算するとベクトルの数が指数的
オーダーで増える。そこで定数個のベクトルで近
似するのがPoint Based Value Iteration
この両者を実装して2状態3行動で実験した。
10