論文: Merkle-CRDTs Merkle-DAGs meet CRDTs

#論文

著者

Hector Sanjuan from Protocol Labs

Samuli Poyhtari from haja Networks

Pedro Teixeira from Protocol Labs

Ioannis Psaras from Protocol Labs, カーネギーメロン大学

リンク

https://arxiv.org/abs/2004.00107

参考

/Yu-da1/Merkle-CRDTs Merkle-DAGs meet CRDTs

https://hazm.at/mox/distributed-system/algorithm/data-structure/merkle-crdts-merkle-dags-meet-crdts/index.html

https://docs.ipfs.tech/concepts/merkle-dag/#further-resources

引用数

掲載元

arXiv

どんな論文？

アブストラクト

結論

ここ見たらどんな研究なのかわかること、以下の伏線になること

Merkle-CRDTの紹介

Conflict-Free Replicated Data Types (CRDTs)

Merkle-DAG as トランスポートおよび永続層

解決対象

メッセージング層の保証が弱くレプリカの数が非常に多いシステム

結果

収束データ型の設計と実装を大幅に簡素化できる

ユースケース

DHT や PubSub アルゴリズムのようなスケーラビリティの高い分散技術を使用してコンテンツアドレス指定のセキュリティと重複排除の特性を活用できる

コンテンツ指向システム

常に繋がっているわけではなく、他のデバイスが通信範囲内に入ってきた時だけ、一時的に接続を行うデバイス

Web ブラウザで実行されるユーザアプリケーション間のピアツーピアコンテンツ交換および同期アプリケーション

先行の研究と比べてどこがすごい？

関連

新しさ

独自性

Merkle-DAGの定義

https://docs.ipfs.tech/concepts/merkle-dag/#further-resources

各ノードに識別子があるDAG

ノードが持つ不透明なペイロードとその子の識別子のリストをSHA256のような暗号学的ハッシュ関数を使用してハッシュ化

リーフノードからのみ構築できる

不変

Merkle DAGのすべてのノードは、（サブ）Merkle DAG自体のルートノードである

ノードは複数の親を持てるので，Merkle Treeと違う

トラストレスなピアツーピア環境で簡単かつ効率的に共有できるオブジェクトの因果情報と自己検証の両方を提供するために使用されているコンテンツアドレス型データ構造

論文ではコンテンツアドレッシング，p2p分散ファイルシステム，コンテンツ配信ネットワークとしてIPFSを使用

数千のレプリカのオーダーまで十分にスケールする

CRDTとIPFSの組み合わせ例

PeerPad

共同編集ツール

https://peerpad.net

ObirtDB

分散型 Web のためのピアツーピアデータベース

https://github.com/orbitdb/orbit-db

ビザンチン環境ではここにコンセンサスが使用される

例

暗号通貨

IPFS

分散ハッシュテーブル (DHT; Distributed Hash Table) を使用して特定の Merkle-DAG ノードを提供するレプリカ (またはピア) をアナウンスおよび検出する

これは bitswap と呼ばれるノード交換プロトコルを実装して任意のプロバイダから DAG ノードを取得する

任意のノードフォーマットと複数のタイプの CID 6 をサポートする Merkle-DAG を記述するフレームワークである IPLD, InterPlanetary Linked Data Format 4 を使用しており、カスタム DAG ノードの作成と同期が非常に容易になっている。

Merkle-CRDT を実装するのに適したレイヤー

Merkle-CRDT オブジェクトやデータ型には依存しない

別々のレプリカ間の通信チャネルを提供する非同期メッセージングレイヤーがあることを仮定

IPFS は DAG-Syncer として動作し、その libp2p レイヤーによって提供される PubSub メカニズムの 1 つは Broadcaster コンポーネントのタスクを実行できる

以下によって管理

DAG-Syncer

レプリカが他のレプリカからコンテンツ識別子 (CID) を指定してリモートの Merkle-DAG ノードを取得したり、自身のノードを他のレプリカが利用できるようにするコンポーネント

ノードには直接の子孫へのリンクが含まれているため、ルートノードの CID を指定すると DAG-Syncer コンポーネントを使用して各ノードの子へのリンクをたどって完全な DAG を取得できる

Broadcaster

あるレプリカから他のすべてのレプリカに (直接またはリレーを通じて) 任意のデータを配信するコンポーネント

vs mekle-treegemini.icon

Merkle-Tree（マークルツリー）は、枝分かれはしますが、一度分かれた枝が再び合流することのない木（ツリー）構造です。

Merkle-DAG（マークルDAG）は、枝分かれした先が再び合流できる、より一般的な有向非巡回グラフ（DAG）構造です

yusei.iconMonasのCRSLはmerkle-dag構造を使っている

どちらかと言えば，Operation-based CRDTとDAGを組み合わせると，Merkle-CRDTになった

CRDTの2つの種類

CRDT構造の利点

通常複雑で高価なコンセンサスアルゴリズムを使用することなくグローバルな状態の収束できる

単調性, monotonicity という特性

更新のたびに状態が膨張 (inflation) し、サイズではなく以前の状態を基準にして状態を拡大するという概念

更新が行われる順序に関係なく、状態のロールバックが不要である

State-based

レプリカの状態が結合半束, join-semilattice を形成しその保証の下でマージ

結合半束

gemini.icon任意の2つの状態（state）を「マージ（merge）」した結果が常に1つに定まり、かつそのマージ順序に依らないことを数学的に保証する構造

gemini.iconマージ操作 = 数学的には結合（join）または上限（supremum / least upper bound）

$ \delta CRDTは状態ベースCRDTの最適化

レプリカによって送信されるペイロードのサイズを削減できている

Operation-based

可換演算がブロードキャストされすべてのレプリカがローカル状態に適用する

Merkle-Clock

各ノードがイベントを表す Merkle-DAG

イベントによって，それを表すノードをこの DAG 内で見つけることができ、それを使用して他のイベントと比較できるようになる

順序づけ

ある Merkle-Clock が別の Merkle-Clock に含まれているかどうかを判断することで Merkle-Clock 間に順序の概念を導入している

2 つの非同期操作はクロックによってソート可能

定義

yusei.iconCRDT知ってたら簡単

例えば$ M_\alpha と $ M_\beta が与えられたとする ($ \alpha と $ \beta はこれらの DAG における単一のルート CID である, 12):

1. $ \alpha = \beta の場合、同じ DAG であるためアクションは必要ない。

2. $ \alpha \in M_\beta の場合、$ M_\alpha の履歴はすでに $ M_\beta の一部であるため $ M_\beta を我々の新しい Clock として保持する。この場合 $ M_\alpha < M_\beta となる。

3. $ \beta \in M_\alpha の場合、同じ理由で $ M_\alpha を保持する。これを $ M_\beta \le M_\alpha とする。

4. それ以外の場合、両方の DAG をそのまま維持し $ \alpha と $ \beta が参照する 2 つのルートノードを持つことで両方のクロックをマージする。

$ M_\alpha と $ M_\beta はより深いノードの一部を共有するかどうかによって完全に不連続になる可能性があることに注意。

新しいイベントを記録したい場合、2 つの子 $ \alpha と $ \beta を持つ新しい子 $ \gamma を作成することができる。

状態ベースの CRDT 形式の Grow-Only-Set (G-Set) に対応する

状態ベースなので，結合半束, join-semilattice を形成する

pullアプローチが可能

merkle-dagの特性による

ネットワークの分断や不測の事態の影響を克服するアルゴリズム

1. Merkle-Clock をブロードキャストするには現在のルート CID のみをブロードキャストする必要がある。クロック全体はルートの CID によって明確に識別され必要に応じてそこから完全な DAG をウォークダウンできる。

2. Merkle-DAG の不変性により、他のすべてのレプリカは迅速に比較を行い、まだ持っていないノードのみを pull/fetch することができる。

3. Merkle-DAG ノードは CID によって自己検証されるため破損や改ざんの影響を受けない。そのため、信頼できるかどうかにかかわらず、ノードを提供しようとする任意のソースからそれらを fetch (pull) することができる。

4. 同一ノードは設計により重複が排除される。すべてのイベントに対して一意な表現は 1 つだけ存在できる。

実際にはすべてのレプリカは他のレプリカからデルタ因果履歴をフェッチするだけで、システムのどこかに明示的にデルタを構築する必要はない。以前の履歴を持たない全く新しいレプリカは自動的に完全な履歴をフェッチする

Merkle-DAG ベースの論理クロック

論理クロック

グローバル時刻の代替

Causal History

過去研究

Vector Clock 21, Bounded Version Vector 8, Dotted Version Vector 29, Tree Clocks 24, Interval Tree Clocks 9 など

Merkle-DAG を用いた因果情報の埋め込みは暗号通貨や Git のようなソース管理システムの中核であるが、論理クロックの一種として個別に考慮されることはほとんどない

Version Vector や Vector Clock のような CRDT で伝統的に使用されている他の論理クロックの代わりに Merkle-Clock を使用できることを実証

他の論理クロックの置き換え

Merkle-Clock を使用することで Version Clock の一般的な制限である因果情報とレプリカの数を切り離すことができる。これにより CRDT を実装する際のメッセージサイズを削減できるようになる。最も重要な点として、レプリカがシステムにランダムに参加したり離脱する際にクロックを動作させ続けるという問題を解決することができる。

マイナス面として因果情報はイベントごとに増大し、イベント情報を小さなオブジェクトに結合してもレプリカは潜在的に大きな履歴を保存することになる。

因果履歴全体を保持することで、新しいレプリカはシステムのスナップショットを新規参加者に明示的に送信することなく、すぐにイベントを最初から同期することができる。しかし履歴が非常に大きい場合は同期に時間がかかる可能性がある。この点については Merkle-CRDT とともに最適化の可能性を探る予定である

ネットワーク異常への対応可能性

紛失したメッセージ (dropped messages) により他のレプリカが新しいルートを知ることができなくなる可能性がある。しかしすべての Merkle-Clock DAG は将来の DAG によってスーパーシードされダウンロードのたびに DAG の欠落部分をすべてフェッチするため、ネットワークの分断やレプリカのダウンタイムはシステム全体に影響を与えず、問題が解決すれば自動的に回復を始める。

順番通りでない配信 (out of order delivery) も同じ理由で問題はない。欠落している DAG がフェッチされ順番に処理される。

重複メッセージ (duplicated messages) はすでに Merkle-Clock に組み込まれているためレプリカは無視する。

破損メッセージ (corrupt msssages) には 2 つの形式がある: a) 新しいルートをブロードキャストメッセージが破損した場合、それは存在しない DAG に対応するハッシュと形 DAG-Syncer によってフェッチすることができず最終的に無視される。b) ダウンロード時に DAG ノードが破損した場合、DAG-Syncer コンポーネント (またはアプリケーション) はその CID がダウンロードされたコンテンツと一致しないときそれを破棄することができる

全順序について

メリットがある

データレイヤーの競合解決

厳密な全順序は同時発生イベントをそのノードの CID で並べたりクロックノードに付与された追加情報に基づいて他の任意のユーザ定義戦略で並べ換えたりすることで構築できる

23, Leslie Lamport. Time, clocks, and the ordering of events in a distributed system. Commun. ACM, 21(7):558–565, July 1978.

CRDT オブジェクトそのものであり、同期やマージが可能であり、異なるレプリカ間での一貫性を正式に証明できる

目的

分散システムにおける因果情報を表現すること

Merkle-CRDT

実装内容

$ (\alpha, P, C)

$ \alpha はコンテンツ識別子

$ P は CRDT 特性を持つ非透明なデータオブジェクト

$ C は子の識別子集合

保証

因果一貫性 (causal consistency)

dagやから

ギャップ検出 (gap detection)

gemini.icon自分の知らない（まだ受け取っていない）イベントが途中に存在することを検知できる

ハッシュ, cidでわかる

Merkle-CRDT の一般的なアンチエントロピー・アルゴリズム

どのようにしてdagノードを共有してdagを構築するのかのアルゴリズム

https://hazm.at/mox/distributed-system/algorithm/data-structure/merkle-crdts-merkle-dags-meet-crdts/index.html#general-anti-entropy-algorithm-for-merkle-crdts

Markle-DAGノード内でCRDTオブジェクトを使う

完全な分散key-valueストアを構築できる

gemini.iconRedis や Memcachedなどの超高速なキャッシュサーバーはram，インメモリとして高速であるが，容量あたりが高価で，その容量もディスクと比較すれば極めて小さい

RocksDB や LevelDB などはデータベースシステムの内部で利用されているが，容量は遥かにお大きいディスクバックであるが遅くなる

Merkle-Clock の特性を活用

Merkle-CRDT はノードが任意の CRDT ペイロードを伝送する Merkle-Clock である

ペイロードが収束するためにはペイロード自身が収束データ型 (CRDT) である必要がある

メリット

以下の条件でもCRDTを使用できる

メッセージング層の保証が弱い

Atomic Reliable Broadcastやraftアルゴリズムのような何かしらの決められたデータ構造や条件が求められる通信プロトコルと違ってゴシッププロトコルで良い

レプリカ数の多い

ChronoSync, RoundSync, VectorSync などのプロトコルのパフォーマンスの向上

分散データセット同期機能をネットワークのネットワーク層にネイティブに統合することは明らかに先進的な試みであり独自の課題を伴う。Merkle-CRDT によってもたらされる "トランスポートにとらわれない" 状態同期の利点による

デメリット，制約，最適化のための課題

レプリカ間のデータをどのように伝播や探索するかがわからない

Push Strategy vs Pull Strategy

対策

DHT

PubSubメカニズム

DAGサイズが増加し続ける

CRDT が通常ブロードキャストオブジェクトをマージ、適用、統合および破棄するのに対し、Merkle-CRDT は永久的な Merkle-DAG を構築する

ブロックチェーンと似たようなもん

dagの再処理でも時間がかかる

深く薄くなる可能性がある

Merkle-DAG は多くの同時イベントがなければ薄くなり、そうでなければ分岐係数が高くなる。どちらの場合もレプリカから新しいイベントが発行されるたびに分岐が集約されるため DAG のウエストは細くなる。

一度しか使われていない孤立ノードも存在する

yusei.iconMonasこれを認めないデータ構造にすればMerkle-CRDTよりも良い提案になる気もする

Monas: CRSL data structureに買いてるデータ構造では認めていない

yusei.iconルートidから取得しようとするか問題があるような気がする

yusei.icon一定期間でルートidにある全てのデータを取得して差分だけで元のデータを再生成できない状態をなくしていいような

yusei.iconcrdtとか分散型ストレージでのプルーニングの概念を考えたい

薄いDAGの解決策

ノード内の追加ポインタ

新しいノードを発行するときに DAG のより深い部分への参照を定期的に導入すること

yusei.icondagをいじるなら圧縮の方が構造が壊れるリスクを下げれると思う

解決策

ガベージコレクション

圧縮メカニズム

yusei.icon論文でも言及されてた笑

Merkle-Clock ソート

2 つの Merkle-Clock をマージするには、それらが互いに含まれているかを比較し違いを見つける必要がある。これは DAG が大きく (またはかなり前から) 分岐している場合にコストのかかる操作となる可能性がある。

DAG-Syncer レイテンシ

同期遅延

Merkle-CRDT の採用を検討する場合、ユーザh i) ノード数と状態サイズ、ii) コールド同期までの時間、iii) 更新伝搬の遅延、iv) 想定するレプリカの総数、v) 想定するレプリカ集合の変更 (参加と離脱)、vi) 想定する同時イベントの量、という観点から Merkle-CRDT が最適なアプローチであるかを検討する必要がある

yusei.icon重要なアドバイスであり指標

ブロードキャストペイロードの調整

標準的なアプローチでは新しいルートの CID のみを含めることによってブロードキャストのサイズを削減する。パブリッシングメカニズムは十分に複雑であるため、ペイロードが小さいほど常にメリットが得られる

目的

システム内の変更の伝播の待ち時間が短縮される可能性が高いから

例

Dynamo

分散データベース

レプリカ間の状態の効率的な比較と調整のために Merkle-Tree を使用

Hash Histries

状態を表す Merkle-Tree を参照するためにコンテンツアドレッシングを使用

Operation-based / 操作ベースのMerkle-CRDTs

ノードが操作ベースの CRDT ペイロードに埋め込まれたもの

Operationの定義は簡単で可換であるだけで良い

操作を行った順番に関係なくどのレプリカでも同じ状態

収束するためにはすべての操作を受信する必要がある

現実的には全てのレプリカでメッセージを失われないようにすることを保証することは不可能

回避策

因果ペイロードの追加、バッファリング、リトライ機構などの複雑な回避策が必要

Merkle-DAG は、メッセージが常に順番に配信され、検証され、繰り返されたり削除されたりすることのないメッセージングレイヤーのすべての特性を提供する

yusei.icon順番はcausal consistencyで保証できて，検証はハッシュでできるが，

yusei.icon繰り返すは，ゴシッププロトコルによってpull処理はしないもののデータ伝播はしてしまうので，無駄な通信が生まれていると思う

yusei.icon削除するは，ノードは勝手に消す可能性があると思う

デメリット

Merkle-DAG が埋め込まれているため各レプリカは DAG の欠けている部分のみを必要とし、ルートが分ればそれらをフェッチすることができる。これにはシステムに参加する新しいレプリカも含まれ、すべての操作をフェッチして適用できるようになる。完全なレプリカ集合をを把握しておく必要はなく、効率的なブロードキャストの責任は Broadcaster コンポーネントにある

State-based / 状態ベースのMerkle-CRDTs

ノードが状態ベースの CRDT ペイロードを埋め込まれたもの

保証

オブジェクトごとの因果一貫性

これにより，信頼性の低いメッセージ層で対処できる設計である

メリット

レプリカの数に比べてステートが非常に小さい状態ベースの CRDT にとっては興味深いかも

因果メタデータが必要な場合はあるけど

完全な状態を送らない， $ \deltaCRDTも使える

$ \delta-mutationと呼ばれるオブジェクトは，gemini.icon元となる操作の意味を変えることなく、下流のレプリカ（他のコンピュータ）で、まるで状態全体を受け取ったかのようにマージすることができる

複数のデルタを結合して，$ \delta-group として知られるものを形成しブロードキャストのペイロードの効率を向上させることができる

完全な状態は極端である

10, Paulo Sérgio Almeida, Ali Shoker, and Carlos Baquero. Efficient statebased CRDTs by delta-mutation. CoRR, abs/1410.2803, 2014.

vanilla形式の場合のデメリット

メッセージが失われたときに整合性が無限に遅延し，CRDTオブジェクトの因果一貫性, causal consistencyを失う

グループ化、ソート、配信の追跡、紛失した差分の再送信を行うアンチエントロピー・アルゴリズムを追加することで対処できる

$ \delta-state-merkle-CRDTは因果情報が必要ないので，このアプローチは，これを操作ベースに近づけるアプローチである

デメリット

DAG-Syncer コンポーネントは，Merkle-CRDT ノード内のすべての状態のマージから得られる最終的な状態を保持する必要があり，大きな状態オブジェクトを扱う場合はかなり非現実的

yusei.iconMonasでは保持するデータは小さいようにできている

分散データセットの同期に関する最近の研究

情報中心ネットワーク (ICN; Information-Centric Networks) 32, 31, 35, 7 の分野

yusei.iconMonasにとってめちゃくちゃ重要

ICN

gemini.icon『どこに（IPアドレス）』データがあるかではなく、『なに（コンテンツ名）』が欲しいかを基準に通信する仕組み

技術や手法のキモはどこ？

どうやって有効だと検証した？

実験結果

議論になっていることはある？

次に読むべき論文は？関連研究からも参考になる

自分はこの研究の中でどこが好きだったか？

その中で一番引用されている論文はなんだったか？

その分野のどこが一番面白いとこだと思ったか？

今の社会と合わせるとどこが問題だと思ったか？

どういう人と話したいと思ったか？