2024/7/20 Road to SRE NEXT@廣島 #srenext
https://gyazo.com/e3a66ace44bab808c904bd2b6f30edc8
Road to SRE NEXT@広島 - connpass
Luupの開発組織におけるインシデントマネジメントの変遷 株式会社Luup gr1m0h
資料 : Luupの開発組織におけるインシデントマネジメントの変遷 ver.RoadtoSRENEXT2024 - Speaker Deck
Luupの開発組織におけるインシデントマネジメントの変遷 - Speaker Deck
Notion
インシデントマネージメントテーブル
Google - Site Reliability Engineering を基に
對應の記錄が漏れる
對應專用 channel (war room channel) を手動で作成する手閒がある
What is a War Room? | PagerDuty
ポストモーテムチェックリスト
Waroom
user token 版 Slack App で war room を自動作成
multi-channel guest の業務委託 member にも on call に對應させたい
User Token 版 Slack App のご利用方法
runbook
ランブックを作成する
事後檢證 (post-mortem)
ポストモーテムを作成する
severity (SEV) は檢討中
SLO (service level object)、影響範圍 (問ひ合はせ件數、user 數等)、法令遵守の觀點から考へる
incident 對應・debug 方面にも繫ぎたいよなぁne-sachirou.icon
incident 對應
PagerDuty。Waroom
debug
Sentry
What is DRE? 株式会社タイミー chanyou
資料 : What is DRE? - Road to SRE NEXT@広島 - Speaker Deck
DRE (data reliability engineering)
DataOps
DMBOK
【Snowflake Summit 2023】セッションレポート:Data Quality and Pipeline Reliability at Scale: Intro to Data Reliability Engineering (DRE) #SRE - Qiita
Data Reliability Engineering をはじめた話 | メルカリエンジニアリング
Fivetran | Automated data movement platform
Hightouch | Composable Customer Data Platform (CDP) & Reverse ETL
data observability
Elementary Data | dbt-native data observability
GitHub - elementary-data/elementary: The dbt-native data observability solution for data & analytics engineers. Monitor your data pipelines in minutes. Available as self-hosted or cloud service with premium features.
(dbt (data building tool)dbt (data building tool).icon)
data 品質
DMBOKを参考にしたデータマネジメントの取り組み - Speaker Deck
完全性
適時性
一意性
一貫性
data downtime
data の外形監視
行數や update_at が一致するか
data source に新しい table や column ができてゐないか
alerting する
タイミーデータ基盤のモデリング設計について - Timee Product Team Blog
test
Add data tests to your DAG | dbt Developer Hub
(dbt (data building tool))
date test
實 data の unique や not_null を test
unit test
入力→出力を unit test
data contract
ODCS (open data contract standard)
Definition: Open Data Contract Standard (ODCS) - Open Data Contract Standard
bitol-io/open-data-contract-standard: Home of the Open Data Contract Standard (ODCS).
Data Contract Specification | Data contracts bring data providers and data consumers together.
Data Contractの概要
Data Contract CLI | CLI to manage your datacontract.yaml files
GitHub - datacontract/datacontract-cli: CLI to manage your datacontract.yaml files
データベースのメモリ管理周りについて t3qyo
資料 : データベースのメモリ管理周り〜OutofMemoryを撲滅したい〜 - Speaker Deck
OutOfMemory
Performance Monitoring for Ruby, Python & PHP | Scout
N+1。slow query。query 結果の cache
PostgreSQLPostgreSQL.icon の work_mem
20.4. 資源の消費#work_mem (integer) #
複數サービスを組み合はせたパイプラインに對する監視について社內外向けプロダクトにおける變則的Blue/Greenデプロイメント mmorito
資料 : ?
一連の pipeline に對して、單一の ID を付與
醫療畫像每に付與される ID を基に
DICOM (digital imaging and communications in medicine) の UID (unique identifier)
全世界で一意
DICOM - Wikipedia
trace ID だな
單一 server 內の SLO (service level object) や異常檢知に對して monitoring を設定
Google Cloud MonitoringGoogle Cloud Monitoring.icon の機能
log からは救濟困難な失敗、遲延に對して個別の檢知手段を檢討
アプリケーションエンジニアがDistributed Load Testingで負荷テストをしてみる Satoshi Kaneyasu
資料 : アプリケーションエンジニアがDistributed Load Testingで 負荷テストをしてみる〜Ver.B〜 - Speaker Deck
アプリケーションエンジニアがDistributed Load Testingで負荷テストをしてみる〜Ver.A〜 - Speaker Deck
AWS での分散負荷テスト | AWS ソリューション | AWS ソリューションライブラリ
JMeter
負荷試驗前には AWS へ申請を忘れずに
みんなのオブザーバビリティプラットフォームを作ってるんだがパフォーマンスがやばいne-sachirou.icon
資料 : みんなのオブザーバビリティプラットフォームを作ってるんだがパフォーマンスがやばい #mackerelio #srenext - Speaker Deck
Xユーザーのmmoritoさん: 「今日は京都から! #srenext」 / X
XユーザーのRyuichiWatanabe@gurasanさん: 「Mackerel! #srenext」 / X
Xユーザーのgamongesさん: 「mackerelのOTel連携、国産ブランドとして応援してる #srenext」 / X
Xユーザーの菱田健太@トポタル📌さん: 「mackerelのおはなし。秘密の話もあるよ。 #srenext」 / X
XユーザーのRyuichiWatanabe@gurasanさん: 「#srenext はてなのエンジニアがRoad toの全部の開催拠点で登壇しているw」 / X
Xユーザーのchanyouさん: 「Mackerel の中身の話! 面白かった #srenext」 / X
Xユーザーの3kyoさん: 「Athenaに移行してtenant, organizationでパーティション 400万行なら余裕。なるほど。 #srenext」 / X
Xユーザーのkadotaさん: 「迂闊に億単位でレコードが増える環境たのしい」 / X
SkillnoteのSRE立ち上げとこれから 株式会社Skillnote Seishiro Uda
資料 : ?
skill map (力量管理表)
Amazon AuroraAmazon Aurora.icon の平均 active session (AAS) が激增
Aurora Serverless は、scale in した時に sequential access したりして遲くなるので採用しなかった
monitoring は DatadogDatadog.icon に集約
複數の tool、複數の AWS account を統合して見られる
通信每の frame graph
performance 改善 task force
SLO (service level object) 整備・service 品質の社内 consensus の釀成
performance の問題管理・改善 cycle の仕組み化
MySQLのOOMと戰った話 渡部龍一
資料 : MySQLのOOMと戦った話 - Speaker Deck
OutOfMemory
( ◜◡◝ )
malloc
MySQL Bugs: #100704: Potential memory leak in MySQL 8.0.19 + 8.0.20 + 8.0.21
google/tcmalloc や jemalloc に切り替へる
google/tcmalloc
TCMalloc | tcmalloc
GitHub - google/tcmalloc
jemalloc
jemalloc
GitHub - jemalloc/jemalloc
virtual memory size (VSS)
MackerelMackerel.icon を用ゐて監視し、閾値以上になったら再起動
go-check-virtmem
【Mackerel】仮想メモリのチェックプラグインを書いた - 地方エンジニアの学習日記
GitHub - ryuichi1208/go-check-virtmem: A Mackerel plug-in that checks virtual memory
go-check-longtransaction-cnt
GitHub - ryuichi1208/go-check-longtransaction-cnt: mysql long database detection tool
FTS の table の restore 中に OOM
Amazon AuroraAmazon Aurora.iconの aurora_oom_response を有效にしておく
Aurora MySQL 設定パラメータ - Amazon Aurora#:~:aurora_oom_response
スキルを伸ばす振り返り1on1のすすめ kenta_hi
資料 : ?
學ぶ努力ができないと、經驗からしかスキルを學べない
仕事のスキルの伸ばし方|きゅーい / koyo
step
經驗を適切に把握する
把握した經驗から學びを得る
學びを抽象化して skill に變へていく
2 週閒每に友人と Trello で KPT
言語化
期日
IoT基礎知識としてのLwM2M gr1m0h
資料 : IoT基礎知識としてのLwM2M
OMA LWM2M - Wikipedia (open mobile alliance lightweight machine to machine)
v.s. MQTT
2024/7/20 #srenext #event_報