2025/2/7 Road to SRE NEXT@京都 #srenext
https://gyazo.com/e3a66ace44bab808c904bd2b6f30edc8
Road to SRE NEXT@京都 - connpass
データ基盤の信賴性エンジニアリング 超實踐編 kesompochy
資料 : データ基盤の信頼性エンジニアリング 超実践編 〜Platform EngineeringによってSRE業はなくなるのか、と人類が議論している傍らで今日も基盤システムは壊れ続ける〜 - Speaker Deck
data 基盤の信賴性
完全性・信賴性・適時性
なぜかたまに失敗する有向非巡廻 graph (DAG)
Google Cloud ComposerGoogle Cloud Composer.icon (Apache AirflowApache Airflow.icon)
祈って再實行するとうまくいきがち
ガシャ事象は toil と見做そう
[Bug] Cosmos stale temporary directories · Issue #958 · astronomer/astronomer-cosmos
Cloud Composer環境における信頼性向上のためのトラブルシュート事例、あるいはOSSにコントリビュートしたらそのOSSを壊してしまった経験について - Pepabo Tech Portal
Create single virtualenv when DbtVirtualenvBaseOperator has virtualenv_dir=None and is_virtualenv_dir_temporary=True by kesompochy · Pull Request #1200 · astronomer/astronomer-cosmos · GitHub
Fix DbtVirtualenvBaseOperator to use correct virtualenv Python path by kesompochy · Pull Request #1252 · astronomer/astronomer-cosmos · GitHub
log pipeline の死活を metrics 化
FluentdFluentd.icon で dummy data を流し續けて、pipeline の結果と照らし合はせて死活監視
GitHub - kesompochy/beametrics: Let your logs be metrics in real-time with Apache Beam.
BI tool (RedashRedash.icon) から data がどう使はれてゐるか把握したい
GitHub - kesompochy/biops: CLI tool for BI Operation.
AirbyteAirbyte.icon の job が實行されてゐなかった
KubernetesKubernetes.icon の job を監視
terraform apply したら BigQueryBigQuery.icon の table が消えた
maintener と話して HCP TerraformHCP Terraform.icon 側に、餘分な API request を減らして貰ふ事にした
神 view
人閒には到底讀み解けない view
view query の自動 test
terraform test + null resourse + bq CLI
BigQueryBigQuery.icon の compute resource 上限
slot の使用 timing が重なる時があり、枯渇する
重い query を流す job を手作業で別の時閒に移動した
自動で分散したい…
これからSREになる人と、これからもSREをやっていく人へ yoyogidesaiz
資料 : ?
SRE (site reliability engineering) のキャリア
インフラ・開發・ユーザー環境等、色んな要素に跨がって發生する事象に對して、product の信賴性を確保してゆく
幅広い專門知識が要る
組織の話が增えてくる
組織に合はせて仕事が變はる
SRE は生き樣
一人で全部達成するのは超人である必要がある
とくある狀況
インフラエンジニアの仕事っぽくなってしまふ。SLI/SLOがあまり使はれない
「インフラの構築、インフラの信賴性を確保する」事だけがチームの目標になってゐる
「プロダクトの信賴性」から考へられるやうにする
プロダクト意思決定者に影響を與へられるやうにする
ステークホルダーの理解を得る
組織を refactoring する
devops
SREing を他のチームに橫展開できない
超人の人數が少なくて各チームに配屬できない
組織を refactoring する
platform SRE
求められる skill
組織に影響を與へる事ができる
自分の專門領域を持ってゐる
自分の專門領域以外も積極的に catch up できる
狹く深い specialist にはなりにくい
ne-sachirou.icon「成熟したら役柄が消える」系の話、組織に變化が無くなるのでない限り、いつも過ちだと思ふな。仕事の對象の領域自體が無くなって失業する場合はある
Fintech SREの挑戰 PCI DSS對應をスマートにこなすインフラ戰略 maaaato
資料 : Fintech SREの挑戦 PCI DSS対応をスマートにこなすインフラ戦略/Fintech SRE’s Challenge: Smart Infrastructure Strategies for PCI DSS Compliance - Speaker Deck
PCI DSS
がんばるか超がんばるか、しかない
scope を狹める
準據環境と非準據環境の AWS account を分ける
認證更新時に QSA (Qualified Security Assessors。認定審査機關) に提出する證據の量を減らす
ASV (Approved Scanning Vendor) による脆弱性 scan 量を減らす
risk 低減
自動化
GitHub Actionsを利用しPCI DSSの更新に向けたissuesを自動作成してトイルを削減した - inSmartBank
AWS による guide
PCI DSS v4.0 on AWS Compliance Guide now available | AWS Security Blog
30年前、出會ひ系、SRE moro40
資料 : ?
出會ひ系
「伝言くん」
固定囘線電話での出會ひ系
携帶電話もインターネットも普及してゐなかった
揭示板に吹き込んで、氣になったら個人的遣り取り
都市每
各都市に不動產を借りて「サイト」を運營する
DOS/V
リセットを押すだけの出張を減らす爲に、電話でON/OFFできる電源タップを入れた
SRE Kaigi 2025 感想戰 syossan27
資料 : ?
(SNS 共有禁止だって)
2025/2/7 #srenext #event_報