Kubernetesにおける可観測性プラクティスの実装(2021)
https://www.youtube.com/watch?v=OY2mmYqBPY8
Claude 3.5 Sonnet.icon
発表者はLINE Taiwanのサイトリライアビリティエンジニアです。
LINEでは多くのKubernetesクラスターを使っています。約40のプロジェクト、70のクラスター、650以上のアプリケーションがあります。
従来のモニタリング方法には問題がありました:
ログ、メトリクス、トレースのデータが別々のシステムにありました。
各チームが独自のモニタリングツールを使っていて効率が悪かったです。
そこで新しい「オブザーバビリティプラットフォーム」を作りました:
ログ、メトリクス、トレースのデータを1つのダッシュボードで見られます。
多くのチームで同じダッシュボードを共有できます。
このプラットフォームの特徴:
データは安く保存できるオブジェクトストレージに保存しています。
現在の利用状況:
34の組織、200人以上のユーザーが使っています。
750以上のダッシュボード、300以上のアラートがあります。
チームへの導入を進めるため:
ワークショップを開催しました。
基本的なダッシュボードを各プロジェクト用に用意しました。
実際の使用例:
LINEスポットチームがサーバーの再起動問題を解決しました。
HTTPエラーの原因をログとトレースを使って特定しました。
今後の計画:
メトリクス、ログ、トレースの連携をさらに強化します。
アプリケーションモニタリングとエラートラッキングを改善します。
まとめ:
この新しいプラットフォームで、問題の原因をより早く見つけられるようになりました。
チーム間で知識を共有しやすくなりました。