GKE上でのMLバッチ運用のコツ
エムスリー京都オフィスあるよ
チームの特徴
GKE上でバッチが動いてる
一人20個ぐらい見ている
バッチの種類は様々
AutoscaleはMLバッチでは致命的
evictionされるときに、コンテナがpodが新たに立ち上がる
学習した内容が全部吹っ飛ぶ
podにevictionしちゃダメのラベルつけられる
でかいnodeがevictionされないのでクラウド破産しちゃうかも?
Podごとに使って良いnodeを決める
でかい用、小さい用
ここから先はブログで!
ステートフルなシステムの運用は結構難しい