Impala情報

注意:このページの内容はやや古くなっているので、日付にご注意ください。また、ブログに書いている場合があります。

impala-1351670(photo by freepik)

2017/2/10 追記

2016/10/23 追記

2016/10/5 追記

2016/4/28 追記

2016/4/24 追記

  • [Blog] How-to: Use Impala and Kudu Together for Analytic Workloads
    • Impala とKuduを組み合わせた分析ワークロードはどう実現されているかの話。Impala-Kuduでは更新、削除、追加もできるので、頻繁に更新されるデー タを素早く分析したい場合にはHive/Impala+HDFS(Parquet)の組み合わせよりも有利。

2016/4/13 追記

2016/2/11 追記

  • Impala, Hive on Tez, Spark SQLのベンチマーク
    • New SQL Benchmarks: Apache Impala (incubating) Uniquely Delivers Analytic Database Performance
    • この環境のテストにおいてはImpalaが最速。ベンチの実施環境が掲載されているので、興味がある方はご自身の環境で試してみてください。https://github.com/cloudera/impala-tpcds-kit
    • このページのコメントのいくつかの要約を日本語で抜粋しておく。(英語だと読まない人がいるでしょ?w)
      • このベンチにDrillがないのはなんで?
        • まだ本番環境で使われてる例が十分じゃないからだよ
      • なんでTez 0.5.2なの?古すぎるじゃん
        • このベンチマークした時点では Tez 0.5.2のpom.xmlしかなかったんだよ
      • Spark 1.6.0使わないのはなんで?
        • ベンチマークの時点ではリリースされてなかったんだよ
      • 前回はPrestoがあったのになんで今回はないの?
        • 最新のベンチを実行するためのSQLに対応してなかったから、今回のベンチでは除外したんだよ

2015/11/18 追記

2015/11/15 追記

  • 基礎から学ぶ超並列エンジンImpala
    Cloudera World Tokyo 2015での矢野さんの講演資料です。わかりやすいですね
    http://www.slideshare.net/Cloudera_jp/sqlimpala-cwt2015
  • Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装
    技評に連載されている山田さんの記事。Impalaの話題もあります。かなり読み応えがあって勉強になります。
    http://gihyo.jp/admin/serial/01/how_hadoop_works

2015/9/25 追記:

2015/9/9 追記:

2015/7/22 追記:

  • Impalaを実行エンジンにしてPythonの分析用フレームワークを実行できる、Ibisがリリースされました!PandasなどのPythonのコードを大規模環境で高速に実行できます!

2015/7/14 追記:

2015/4/27 追記:

Impala情報まとめ

Impalaとは

Cloudera Impalaとは、Apacheライセンスで公開されているオープンソースソフトウェア。

Impalaの目的

短時間でインタラクティブな分析を行えるようにすること。つまりはデータサイエンティストなどが、低レイテンシでインタラクティブにクエリを行える仕組みを実現する。

おおざっぱなイメージとしては、Hiveのクエリを短時間で実行できるエンジンと考えると分かり易い。(但し単純なHiveの置き換えのために開発されたものではない)。
GoogleのDremel、GoogleのF1に影響を受けて開発された。

ImpalaとHiveの戦略について

なぜHiveを高速化せずにImpalaを開発したのか、についての翻訳された記事です。アプローチがわかって面白いですね。http://www.cloudera.co.jp/blog/20140107-impala-v-hive.html

  • できること
    • Hiveメタストアを利用する。Hiveとの親和性が高い
    • 低レイテンシでのクエリ(Hiveに比較して数倍〜数十倍速い。※データセットの量とクエリに依存)
    • ODBCでの操作
    • C++のUDF/HiveのUDF(Java)の両方が利用可能
    • サポートしているファイルフォーマット
      • Parquet / Text /Avro / RCFile / SequenceFile
    • できないこと
      • Netsedフォーマット(現在対応中)
      • 耐障害性

OSSでの開発・貢献について

 

書籍

論文/アーキテクチャ

パフォーマンス

技術情報など

日本でのセミナー等の資料

>> 本ブログでのImpalaに関する情報

 


 

 

 

※以下は2012/12/4のブログとほぼ同じ内容で、かなり古い情報です。参考のために残しておきます。

Cloudera Impalaオフィシャル情報(英語)

Cloudera Impalaオフィシャル情報(日本語)

ソースコード、ドキュメント

個人的なお勧め情報

技術情報

評価、ベンチマーク

References

ニュース、ブログ(日本語)

News, Blogs(English)

Pocket