Cloudera Impala情報(まとめ)

Impalaに関する情報も増えて来たが、Hadoopアドベントカレンダーに備えてここで一旦まとめておく。

Cloudera Impala情報まとめ

Impalaとは

    Cloudera Impalaとは、Apacheライセンスで公開されているオープンソースソフトウェア(OSS)。
    現在はパブリックベータ。2週間に一回程度更新される予定。
    将来的にはCDH(Cloudera’s distribution including Apache Hadoop)の一部になることが予定されている。

    目的はSQLやBIアプリケーションから短時間でインタラクティブな分析を行えるようにすること。つまりはデータサイエンティストなどが低レイテンシでインタラクティブにクエリを行える仕組みを実現する。
    おおざっぱなイメージとしては、Hiveのクエリを短時間で実行できるエンジンと考えると分かり易い。(但し単純なHiveの置き換えのために開発されたものではない)。
    GoogleのDremel、GoogleのF1に影響を受けて開発された。

  • できること
  • HiveQL、Hiveメタストアが利用可能。Hiveとの親和性が高い
    低レイテンシでのクエリ(Hiveに比較して数倍〜数十倍速い。※データセットの量とクエリに依存)
    ODBCでの操作(制限あり)

  • できないこと
  • Hive UDF, SerDe
    耐障害性
    DDL
    など、現状はRCFile/Trevniが使えないなど、ベータ版による制限も多い

Cloudera Impalaオフィシャル情報(英語)

Cloudera Impalaオフィシャル情報(日本語)

ソースコード、ドキュメント

個人的なお勧め情報

技術情報

評価、ベンチマーク

References

ニュース、ブログ(日本語)

News, Blogs(English)

Pocket

This entry was posted in Uncategorized by . Bookmark the permalink.