ログの教科書
https://www.seshop.com/static/images/product/27227/L.png
ログの記録と収集
ログの収集・管理ツールの種類
ホスト型
PCやサーバーにインストールして使うツールで組織で使われることが多い
IT資産管理ツール
ゲートウェイ型
ネットワーク上を流れる通信データ(パケット)を取得し、それをもとにログを管理するツール
ファイルサーバーからパソコンへのファイルのコピーのように、通信内容をパケット単位で取得するため、全ての通信を記録できるメリットがある
重要なデータを保存するサーバーに対する内部不正の抑止やインシデントが発生したときの原因分析、影響範囲の特定などには有効なツール
統合ログ管理
複数の機器が発するログを一元化できるツール
オープンソースのログ収集ツール
Fluentd
軽量かつシンプルな構成で高速で安全にデータを転送できる収集・ルーティンツール
入力(source)、フィルター(filter)、出力(match)という構成で、それぞれに導入するプラグインを組み合わせることで柔軟に構成することができる。
https://zenn.dev/ryoatsuta/articles/a0dea1dc377000
ログの収集・転送に特化したFluent Bitというツールもある
https://zenn.dev/johnn26/articles/20241216-fluent-bit-investigation
LogStash
Elastic社が開発したオーブンソースのデータ収集ツール
単体で使うというよりも、Elastic Stackと呼ばれるツール群の一つとして使われることが多い
Elasticserch
LogStash
Kibana
grokというフィルタが便利っぽい
ログの保存と圧縮・アーカイブ
保存
ログは書き換えられない、システム障害などでも失われないといった対策を行って保存する必要がある
改ざん防止手法
ファイルのハッシュ作成や、ハッシュチェーンを使った複数ファイルにわたる改ざん検知方法
電子署名付きタイムスタンプ(RFC 3161)
保存期間は業務内容によって様々なガイドラインがあるため、適した期間保存できるようにする必要がある
例えば、請求者や領収書といった会計に関するデータでは法人税法なので、7年から10年といった期間が定められている
圧縮・アーカイブ
ログは数年単位という大量のファイルを保管する必要があるため、圧縮を行う
復元可能な可逆圧縮(zip)で行う
アーカイブ手法
普段はS3に保管しておき、一定期間を経過するとS3 Glacierというアーカイブ用のストレージに移行する
ログ分析
統計処理を使った分析手法
table:リスト
手法 概要 用途
時系列解析 時間的な変動を捉えて、トレンドや季節性などを抽出する 異常検知、予測、トラフィック分析
クラスタリング 似たログをグループに分ける パターン抽出、異常の分類
主成分分析 多くの項目があるログを少ない項目で表現して重要な要因を抽出する 特微量の削減、異常検知の前処理
ベイズ推定 事前確率を基に確率的に状態を推定する 原因分析
マルコフモデル 確率モデルを使って状態線をモデル化する 異常検知
回帰分析 ログの発生件数などの数値データから傾向を捉える 予測分析
異常検知
異常検知の考え方
異常の検知について考えたとき、偽陰性と偽陽性という言葉がよく使われる
https://scrapbox.io/files/69992aca3583dfb074db8834.png
上記の表で問題なのは以下
偽陽性の状態は、本来は異常ではないにもかかわらず出力されているログのせいで異常と検知された状態
オオカミ少年アラートの状態
偽陰性は対応が必要なのに、異常が隠されていて誰も気づいていない状態
異常検知のアルゴリズム
ルールベース
事前に定義された条件(特定IPなど)に基づいて異常検知する方法
未知のパターンに対しては対応しにくい
統計的手法
正常な動作の分布を数値化し、そこから逸脱を測定する方法
機械学習
膨大なログデータから未知の異常パターンを抽出できる方法
フォレンジック