https://gyazo.com/e3a66ace44bab808c904bd2b6f30edc8
Luupの開発組織におけるインシデントマネジメントの変遷 株式会社Luup gr1m0h
Notion
インシデントマネージメントテーブル
對應の記錄が漏れる
對應專用 channel (war room channel) を手動で作成する手閒がある
ポストモーテムチェックリスト
user token 版 Slack App で war room を自動作成
multi-channel guest の業務委託 member にも on call に對應させたい
runbook
severity (SEV) は檢討中
incident 對應・debug 方面にも繫ぎたいよなぁne-sachirou.icon
incident 對應
debug
What is DRE? 株式会社タイミー chanyou
DRE (data reliability engineering)
DataOps
data observability
data 品質
完全性
適時性
一意性
一貫性
data downtime
data の外形監視
行數や update_at が一致するか
data source に新しい table や column ができてゐないか
alerting する
test
date test
實 data の unique や not_null を test
unit test
入力→出力を unit test
data contract
データベースのメモリ管理周りについて t3qyo
OutOfMemory
N+1。slow query。query 結果の cache
複數サービスを組み合はせたパイプラインに對する監視について社內外向けプロダクトにおける變則的Blue/Greenデプロイメント mmorito
資料 : ?
一連の pipeline に對して、單一の ID を付與
醫療畫像每に付與される ID を基に
全世界で一意
trace ID だな
log からは救濟困難な失敗、遲延に對して個別の檢知手段を檢討
アプリケーションエンジニアがDistributed Load Testingで負荷テストをしてみる Satoshi Kaneyasu
JMeter
負荷試驗前には AWS へ申請を忘れずに
みんなのオブザーバビリティプラットフォームを作ってるんだがパフォーマンスがやばいne-sachirou.icon
SkillnoteのSRE立ち上げとこれから 株式会社Skillnote Seishiro Uda
資料 : ?
skill map (力量管理表)
Aurora Serverless は、scale in した時に sequential access したりして遲くなるので採用しなかった
monitoring は DatadogDatadog.icon に集約 複數の tool、複數の AWS account を統合して見られる
通信每の frame graph
performance 改善 task force
performance の問題管理・改善 cycle の仕組み化
MySQLのOOMと戰った話 渡部龍一
OutOfMemory
( ◜◡◝ )
malloc
google/tcmalloc や jemalloc に切り替へる
google/tcmalloc
jemalloc
virtual memory size (VSS)
MackerelMackerel.icon を用ゐて監視し、閾値以上になったら再起動 go-check-virtmem
go-check-longtransaction-cnt
FTS の table の restore 中に OOM
スキルを伸ばす振り返り1on1のすすめ kenta_hi
資料 : ?
學ぶ努力ができないと、經驗からしかスキルを學べない
step
經驗を適切に把握する
把握した經驗から學びを得る
學びを抽象化して skill に變へていく
2 週閒每に友人と Trello で KPT
言語化
期日
IoT基礎知識としてのLwM2M gr1m0h