VLDBにSQL on Hadoopの論文が出ています

備忘録がわりのメモ:
VLDBに「SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures」というIBMの研究社による論文が公開されていました。
http://www.vldb.org/pvldb/vol7/p1295-floratou.pdf
ParquetとImpala、RCFileとHive、ORCとHive+TezなどをTPC-DSを使ったベンチマークの比較と考察があり、かなり興味深いです。最新バージョンでの比較ではないですが、かなりいろんな角度から比較をしているようなので、この夏に時間をかけてゆっくり読みたいところ。
#HDFS cachingの恩恵などもあるので、Imapala1.4はもっと速い(はず)
vldb

コメント

  1. […] CIDR 2015にCloudera Impalaの論文、”Impala: A Modern, Open-Source SQL Engine for Hadoop” のPDFとスライドが公開されていました。(そういえばVLDBにも掲載されていましたね) […]