監視
ログ管理
に近いが、どこで何が起きたのかを記録して、後で確認できるようにする必要性がある。
各種のメトリクスを記録して、異常が発生した時に管理者に通知する必要性がある。
現在は多くの監視システムはOS上のアプリケーションとして作られている。
管理するノードが増えると監視機能は事実上の必須機能になる。
各種メトリクスをどこから取り出すか?
Linux では /proc ファイルシステムなどからメトリクスを取得する仕組み