TimescaleDB

概要

OSS の時系列データベース

SQL を喋る (Postgres の拡張)

https://docs.timescale.com/v1.3/main

TimescaleDB と PostgreSQL DB は単一の PostgresSQL サーバーに同居できる

インタフェース言語として SQL を利用する

テーブル、インデックス、トリガーような標準的なデータベースオブジェクトを保持している

主要な概念

概要

PostgreSQL の拡張なので、PostgreSQL インスタンス上で動作する

信頼性やセキュリティ、様々なサードパーティ製ツール等の PostgreSQL のメリットを享受できる

Hypertables

全期間内の全データが保持されているように見える抽象的なテーブル

TimescaleDB とのユーザのすべてのやりとりは hypertable との仮想的なやりとりになる

カラム名とタイプ、少なくとも１つの時間を指定するカラム、そして追加のパーティショニングキー (option) で定義される

単一の TimescaleDB にて、異なるスキーマを保持した hypertable を複数保持できる

作成のためには、CREATE TABLE と SELECT create_hypertable() を利用する

Chunks

TimescaleDB は、内部的に hypertable を複数の chunks に分割する

単一の chunk は、特定の期間及びパーティションキーの範囲に対応する

クエリプランナーは、クエリを解決するのにアクセスする必要のある chunk 数を最小化するように動く

各 chunk の実態は、データベーステーブルになる

データモデル

narrow-table モデルと wide-table モデルの２つをサポートしているとのこと。

サンプルデータとして、1000 の IoT デバイスが様々な環境からデータを取得しているパターンを考える。

識別子 device_id, timestamp

メタデータ location_id, dev_type, firmware_version, customer_id

デバイスメトリクス cpu_1m_avg, free_mem, used_mem, net_rssi, net_loss, battery

センサーメトリクス temperature, humidity, pressure, CO, NO2, PM10

table:sample

timestamp device_id cpu_1m_avg free_mem temperature location_id dev_type

2017-01-01 01:02:00 abc123 80 500MB 72 335 field

2017-01-01 01:02:23 def456 90 400MB 64 335 roof

2017-01-01 01:02:30 ghi789 120 0MB 56 77 roof

2017-01-01 01:03:12 abc123 80 500MB 72 335 field

2017-01-01 01:03:35 def456 95 350MB 64 335 roof

2017-01-01 01:03:42 ghi789 100 100MB 56 77 roof

narrow-table model

ほとんどの時系列データベースはデータを以下の方法で表現している。

各メトリクスを別々のエンティティとして表現する

メトリクスを、時間と値のペアの連なりで保持する

メタデータの値は tag-set として表現し、メトリクスと関連づける

各々の metric/tag-set ペアが、個別の time series として表現される。

この表現方法だと、サンプルデータ (の前半) は以下のような 9 つの異なる time series となり、各々はユニークなタグのセットで定義される。name がメトリクス名であり、それにメタデータが付与されている。

code:json

1. {name: cpu_1m_avg, device_id: abc123, location_id: 335, dev_type: field}

2. {name: cpu_1m_avg, device_id: def456, location_id: 335, dev_type: roof}

3. {name: cpu_1m_avg, device_id: ghi789, location_id: 77, dev_type: roof}

4. {name: free_mem, device_id: abc123, location_id: 335, dev_type: field}

5. {name: free_mem, device_id: def456, location_id: 335, dev_type: roof}

6. {name: free_mem, device_id: ghi789, location_id: 77, dev_type: roof}

7. {name: temperature, device_id: abc123, location_id: 335, dev_type: field}

8. {name: temperature, device_id: def456, location_id: 335, dev_type: roof}

9. {name: temperature, device_id: ghi789, location_id: 77, dev_type: roof}

この表現方法だと、各タグのカーディナリティの組み合わせ分レコードが必要になる。カーディナリティが高くなりすぎると問題が起こるため、時系列データベースによってはデバイスタイプの種類を制限したり、1データベース内に保持可能なデバイス数を制限したりする。

narrow モデルは、メトリクス毎にタイムスタンプを保持する必要があるため、同一タイムスタンプで保持するメトリクス数が多いとパフォーマンスが落ちるし、ストレージも圧迫する。また、関係する異なるメトリクスを取得しようとすると、メトリクス毎にJOINが必要になるため、クエリが複雑になる。複数のメトリクスを一緒に取得する場合は、wide table フォーマットでそれらを保持した方が良い。

wide-table model

異なるメトリクス同士を一度に取得するのに JOIN が必要ない方式。複数のメトリクスに対してタイムスタンプが１つしか保持されない。タイムスタンプを識別子とした、典型的な RDB のテーブルと一緒。