Online Convex Optimization with Stochastic Constraints
凸最適化のオンライン版で [2] の文献がまとめっぽい。制約付きFormの研究は少ない?
選んだ行動の後に確率的に起る事象を制約として持つ、確率的に制約違反が起る。
[1] は制約を違反する確率の上界をboundするアルゴリズム
https://gyazo.com/936ee15baa105bc380efb3b2ebf9fdae
$ Q は制約に違反すると大きくなる
$ \alpha は制約項パラメータ、$ x(t) と次回の $ x(t+1) の差に制約を与える
$ V は貪欲パラメータ? 大きくすると報酬が増える方向に $ x が大きく動く
大きくしすぎるとオーバーシュートして戻れなくなりそう
References
Yu, Hao, Michael Neely, and Xiaohan Wei. "Online convex optimization with stochastic constraints." Advances in Neural Information Processing Systems. 2017.
Hazan, Elad. "Introduction to online convex optimization." Foundations and Trends® in Optimization 2.3-4 (2016): 157-325.
Yu, H., Neely, M. J., & Wei, X. (2017). Online Convex Optimization with Stochastic Constraints, 1–23. Retrieved from http://arxiv.org/abs/1708.03741