機械学習ワークロードにおけるSpot&Batchの活用
まとめ
学習ワークロードはかなり長いワークロードになる→スポットの使用で死んだら辛い
モデルを小さくしてアンサンブルにする
スポットで失敗しても一つ前のモデルを参照するようにする
学習データがかなりでかいデータを使う場合はコンテナに直接EBSをアタッチするのがオススメ
IOパフォーマンスに影響はないことは確認済み
/icons/hr.icon
https://gyazo.com/a8a4cb795faf16591c8a736e9a987c6b
https://gyazo.com/06ef00223704cd5f9a5050e3d8c3d963
https://gyazo.com/cee76d52f003dc1661081adc99e6e625
https://gyazo.com/c36a027ee18f20412795e5ad2ffe540b
https://gyazo.com/2371c912b9db67fb6d99750e10dfbec2
https://gyazo.com/105d92ad9f744debc38cc5229799cb0f
https://gyazo.com/f829175c6fd67a33c7f0d95387164455
https://gyazo.com/ebe32b5153b000285408e633ea200464
https://gyazo.com/2cd4bacceaa3596d97f9ec88ad2299ac
https://gyazo.com/fa98eb0935663441775b27c33a47b4cd
https://gyazo.com/e92879e33e7cdaf621379d49fb906064
https://gyazo.com/d4eb1401a1edb62a633f49fc45634178
https://gyazo.com/a027041ce6dd1e9b9330b96d9d15c8de
https://gyazo.com/4185c6a832206151bc2ee017287be3db
https://gyazo.com/8fb903c1b12e428e17d0051c0791bc09
500GBくらい使うので足さなければいけない
https://gyazo.com/e6d6a2d772f12d7421512b97c008af8c
https://gyazo.com/0ed1d2d62f02b4db69dab704df471363
https://gyazo.com/ee13a0834ef2e83669ec711016e7d0e1
https://gyazo.com/a336fb5e8be80c1a85dd9b1c8556751c
これがオススメ
https://gyazo.com/2f23f7be4f8b58c53b098cf4662512bd
https://gyazo.com/6af75b42873a77936e12a15ebc3dad21
https://gyazo.com/2d90440011c0d112f904a14d36ea9646
https://gyazo.com/96711997d26c7087541193f346b0780c
https://gyazo.com/a54fa3590841247d3e1d974b3fac9661
https://gyazo.com/b9f67ac3964199ee53785d6b16406edd
https://gyazo.com/a1190ee8885c8c58c58a99f2d5ecd716
https://gyazo.com/6f73dd4c7396b495352ef06f697c0e62
→結論コンテナ直接アタッチで問題にならない
https://gyazo.com/43595acad9ab25588a9a55798da53161
https://gyazo.com/68a40f34029f1cbec64cf472c5c1efb9