年が明け、Impalaの興味深い話題が2つ公開されています。
ImpalaとHiveの戦略について
なぜHiveを高速化せずにImpalaを開発したのか、についての翻訳された記事です。アプローチがわかって面白いですね。http://www.cloudera.co.jp/blog/20140107-impala-v-hive.html
Impalaのパフォーマンス
Impala Performance Update: Now Reaching DBMS-Class Speed
Hive 0.12+ORCFileとImpala 0.11+Parquctでの比較、およびDBMS-YとImpalaの比較。共にTPC-DSでのベンチマークの結果が掲載されています。
おまけ
個人的に興味深かったのは、上記のリンクに「When Impala 2.0 arrives in the first half of 2014,...」と書かれていたところです。Impala 2.0での新機能の予定はブログに書かれていますが、UDTFやネスト型のデータ構造にも対応したりするとのこと。インパラさん、さらに突っ走るんですね(笑
コメント
個人的には、ベンダーが公開するベンチマークを鵜呑みにするのではなく、実際のワークロードを使って手元で測定するのが基本だと思います。
きちんと情報を公開していない限り、どうチューニングされているかもわからないし、とはいえデフォルトのままベンチを取る意味はほとんどないです。(デフォルト値は最適な値ではない)