Road to SRE NEXT@京都
ソーシャルゲームの長期運用を目指すための SRE の取り組み
ソーシャルゲームの歴史はSREより古い
ソーシャルゲームのライフサイクルは一般的なWebサービスより短い
ローンチ時の負荷が一番高い
負荷対策以外の信頼性
リアルタイム性
アプリ内課金
定期購読
補填では機会損失をどうにかできない
フェーズごとの信頼性
不公平感の回避
コトダマン
6周年
10周年をめざす
SREチームの発足は1年前
問題把握から
SLIの定義と計測
New Relic APM
パスごとの目標レイテンシ
アラートをTerraformで管理し、PRで変更する
意思決定の記録を残す
オブザーバビリティ
構造化ログ
マスターデータのデプロイ
Excelファイル
手元でSQLファイルに変換
GHAで人間が介入する余地をなくす
長期運用を目指すと「動くだけでいい」から脱却しないといけない
「なんでも運用部隊」ではない
ユーザーへの信頼性にコミットする
既存のワークフローを変えることへの抵抗
仕組みが理解されない
対話
マネーフォワード関西開発拠点のSREの始まりと今と未来
良いチームで良いプロダクトを届ける
プロダクト開発チームの中でSREチームの立ち上げ & グロース
マネーフォワード クラウド会計Plus
当初は横断組織のインフラエンジニアに頼りきりで運用
リードタイムが悪化
Enabling SREチーム
信頼性・開発生産性の向上
独立したバックログ
ECS → EKS
ポストモーテム
障害訓練
SLOをレベルアップするためのアーキテクチャ変更