Impalaの話題2つ

年が明け、Impalaの興味深い話題が2つ公開されています。

ImpalaとHiveの戦略について

なぜHiveを高速化せずにImpalaを開発したのか、についての翻訳された記事です。アプローチがわかって面白いですね。http://www.cloudera.co.jp/blog/20140107-impala-v-hive.html

Impalaのパフォーマンス

Impala Performance Update: Now Reaching DBMS-Class Speed
Hive 0.12+ORCFileとImpala 0.11+Parquctでの比較、およびDBMS-YとImpalaの比較。共にTPC-DSでのベンチマークの結果が掲載されています。

おまけ

個人的に興味深かったのは、上記のリンクに「When Impala 2.0 arrives in the first half of 2014,…」と書かれていたところです。Impala 2.0での新機能の予定はブログに書かれていますが、UDTFやネスト型のデータ構造にも対応したりするとのこと。インパラさん、さらに突っ走るんですね(笑

コメント

  1. kernel023 kawasaki より:

    個人的には、ベンダーが公開するベンチマークを鵜呑みにするのではなく、実際のワークロードを使って手元で測定するのが基本だと思います。
    きちんと情報を公開していない限り、どうチューニングされているかもわからないし、とはいえデフォルトのままベンチを取る意味はほとんどないです。(デフォルト値は最適な値ではない)