1000台規模のマシンのメトリクスを上手いこと取り扱いたい
いわゆる「サーバーサイド」のdaemonがKの規模であるというわけではなく、言うなれば「IoTデバイス」がそのオーダーであるという感じであり、これらをモニタリングしたいというモチベーション。
望ましいこと
ハードウェアメトリクスとSynthetic Monitoringのようなものができると良い
マシンはNAT配下にあることが多いのでpull型ではなくpush型であるほうが良い
安いほうが良い
Datadog
1台あたり$18なので破産してしまいます、無念
ただそれだけの価値は実際あると思う……貧乏が憎い……
Amazon Managed Service for Prometheus
https://aws.amazon.com/jp/prometheus/
node_exporterあるいはotel-collectorを使ってホストメトリクスを取っておいて、remote_write経由で送り付ける
コストを考えるとメトリクスについては強めにサンプリングする必要はありそう
項目数、インターバル
工夫すればこれでいけるか……?