並列ハッシュ結合

avashe.icon並列データベースの概念と原理がエモかったのでシェア

データベースにおいて、一つのSQL文は、あるテーブルに対して一つの木構造を成す

木が分かれている経路はカラム毎に並列処理できる

合流している所、つまりjoin(結合処理)はどうするか？

結合時の比較回数を減らすハッシュ結合という手法に偏りが少ないハッシュを適用すれば直ちに並列化できる

ハッシュ値の偏りに対処した手法の提案もあるらしい

このまま分散システムに応用することもできる

ハッシュの性質によりBin packing probremをあまり気にせず解決できるのが強い

ただしハッシュによってbinに分散する方法(Hash partitioning)は範囲問い合わせを難しくする

並列ハッシュ結合は更にMapReduceに帰着する

Apache HiveはApache Hadoopにこの辺の知見を併せることでSQL処理系を実現しているらしい

他にはGoogle BigQueryなども