Cloudera Impalaの論文 (CIDR 2015)

CIDR 2015にCloudera Impalaの論文、”Impala: A Modern, Open-Source SQL Engine for Hadoop” のPDFスライドが公開されていました。(そういえばVLDBにも掲載されていましたね)
Impalaは単一ユーザが利用したときのクエリも速いんですが、複数ユーザが同時にクエリを実行した場合の速さも抜群です。一般的に一人でクラスタを使用することはないと思うので、複数ユーザがビッグデータを同時に高速に分析したい、と言う用途にも適していますね。
まぁ、速くて文句を言う人はいないと思いますが(笑、詳細は論文をどうぞ。
なお、下記はスライドのP.39からの抜粋。このグラフは10ユーザーからの同時クエリですが、実際にはさらに多くのユーザーからの並列クエリの場合でも良好なパフォーマンスを叩き出します。
impala_multi_user
あと、時々勘違いされている方がいらっしゃいますが、Impalaはオープンソースでソースコードも下記のgithubで公開されていますのでお間違いなきよう。
http://impala.io/ (メインページ)

 (ソースコードのレポジトリ)

コメント