“Apache Impalaは、Apache Hadoop向けの最新の高性能分析データベースです。 MPP(Massively Parallel Processing)SQLクエリエンジンにより、データセットを特定のシステムまたは専用フォーマットに移行することなく、オンプレミス(HDFSまたはApache Kuduの場合)またはSQL、またはビジネスインテリジェンスツールを使用して、Cloudオブジェクトストレージに格納されたデータの分析クエリが可能になります “:Apache Impala リリース記事より抄訳:)
注意:このページの内容はやや古くなっているので、日付にご注意ください。また、ブログに書いている場合があります。
(photo by freepik)
2018/7/26 追記
パフォーマンスの最適化に役立つスライド
2018/5/10 更新
- Impala 3.0 リリース!
We just released Apache Impala 3.0! You can download it at https://t.co/WqxrnQk2Wh and see the full list of changes at https://t.co/EDHYs56jp3. A big Thank You! to all community members who contributed to the release!
— Apache Impala (@ApacheImpala) May 10, 2018
2017/11/29 追記
最近このページを更新していなかったので、近いうちにリニューアルします。
(祝)ついにImpalaがApacheのトッププロジェクトになりました!
- https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces24
- The Apache Software Foundation Announces Apache® Impala™ as a Top-Level Project
2017/2/10 追記
- [Slideshare] http://www.slideshare.net/cloudera/the-impala-cookbook-42530186
- The Impala Cookbookの最新版が公開されています
- [Others] CDH5.10のImpalaのバージョンは2.7? 2.8?
- ドキュメントには 2.8 と書かれているのにパッケージが無いぞ!という質問のやり取りです。結論は、ver2.8に限りなく近いパッチがバックポートされたver2.7という名前のパッケージだということらしい
2016/10/23 追記
- [Blog] Apache Impala と Amazon Redshiftを比較評価:AWSにおけるS3との統合、弾力性、アジリティ、そしてコストパフォーマンスの優位性について
- RedShiftよりもコストが安く早いよ、という話
- [Blog]: Apache Impala(Incubating)を使ったAmazon S3 上でのアナリティクスとBIの実現
- CDH5.8以降のImpalaでは、S3のデータに対して直接クエリを実行できるという話。HDFSにコピーせずに実行できるようになったことでデータ移動処理が不要に。
2016/10/5 追記
- [News] Apache Impala 2.7 release!
- Cloudera版ではなく、Apache版としての初のリリース!
- [Blog] : Connect to an Impala database in Power BI Desktop (Preview)
- Microsoftのブログ。PowerBIからImpalaに繋いでクエリする
2016/4/28 追記
- [Qiita] Impalaのパフォーマンスガイドラインとベストプラクティス(翻訳)
- Impalaで性能を上げるために役立つガイド。パーティションの考え方などはHiveにも通じる。原文
- [Blog] Apache Impala (incubating) in CDH 5.7: 4x Faster for BI Workloads on Apache Hadoop
- 最新のImpalaではひとつ前のバージョン(2.3)よりも4倍速くなっているという話
- [Blog] SQL-on-Apache Hadoop – Choosing the right tool for the right job
- SQL on Hadoopの比較とこれらをどこで適用するのが良いか。また、Spark SQLやHive on Tezとの比較もある
2016/4/24 追記
- [Blog] How-to: Use Impala and Kudu Together for Analytic Workloads
- Impala とKuduを組み合わせた分析ワークロードはどう実現されているかの話。Impala-Kuduでは更新、削除、追加もできるので、頻繁に更新されるデー タを素早く分析したい場合にはHive/Impala+HDFS(Parquet)の組み合わせよりも有利。
2016/4/13 追記
- 日本語によるImpalaの技術情報。Impala遣いは必見!
- Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装
- Impala Performance Update
Impala 2.5での性能向上について。TPC-DSで336%早くなるクエリもある。Impala 2.5の技術情報もかなり豊富 - Cloudera Enterprise 5.7.0 リリースのお知らせ
- Impala 2.5が含まれているCDHの最新バージョン。Impalaの2倍のパフォーマンス向上: 結合順序とカーディナリティの見積精度の向上、クエリ処理開始の高速化、実行時のコードの生成と最適化等
- Cloudera Enterprise 5.7.0 リリースのおしらせ
2016/2/11 追記
- Impala, Hive on Tez, Spark SQLのベンチマーク
- New SQL Benchmarks: Apache Impala (incubating) Uniquely Delivers Analytic Database Performance
- この環境のテストにおいてはImpalaが最速。ベンチの実施環境が掲載されているので、興味がある方はご自身の環境で試してみてください。https://github.com/cloudera/impala-tpcds-kit
- このページのコメントのいくつかの要約を日本語で抜粋しておく。(英語だと読まない人がいるでしょ?w)
- このベンチにDrillがないのはなんで?
- まだ本番環境で使われてる例が十分じゃないからだよ
- なんでTez 0.5.2なの?古すぎるじゃん
- このベンチマークした時点では Tez 0.5.2のpom.xmlしかなかったんだよ
- Spark 1.6.0使わないのはなんで?
- ベンチマークの時点ではリリースされてなかったんだよ
- 前回はPrestoがあったのになんで今回はないの?
- 最新のベンチを実行するためのSQLに対応してなかったから、今回のベンチでは除外したんだよ
- このベンチにDrillがないのはなんで?
2015/11/18 追記
- ClouderaがImpalaとKuduをApacheソフトウェア財団に寄贈の提案: これはすごい。画期的。
Cloudera Proposes to Donate Impala and Kudu to The Apache Software Foundation
Cloudera Proposes to Donate Impala and Kudu to The Apache Software FoundationCloudera Proposes to Donate Impala and Kudu to The Apache Software Foundation -
上の記事と似た内容。Impalaの登場から歴史を紐解いて説明しています。
Impala’s Next Step: Proposal to Join the Apache Software Foundation
http://blog.cloudera.com/blog/2015/11/impalas-next-step-proposal-to-join-the-apache-software-foundation/ - Fast Dataを取り込んでクエリする方法 (Kuduを使わずに)
HBaseに取り込んだデータをParquetのファイルに変換して素早く分析する方法。
これは実に重要なノウハウが詰まっています。でもKuduが利用できればこんな複雑なことをしなくて良くなる。素晴らしい世界になる日も近い。
How-to: Ingest and Query “Fast Data” with Impala (Without Kudu) - Cloudera BlogImpala is designed to deliver insight on data in Apache Hadoop in real time. As data often lands in Hadoop continuously in certain use cases (such as time-serie...
2015/11/15 追記
- 基礎から学ぶ超並列エンジンImpala
Cloudera World Tokyo 2015での矢野さんの講演資料です。わかりやすいですね
基礎から学ぶ超並列SQLエンジンImpala #cwt2015Cloudera World Tokyo 2015 での発表資料です -
Hadoopはどのように動くのか ─並列・分散システム技術から読み解くHadoop処理系の設計と実装
技評に連載されている山田さんの記事。Impalaの話題もあります。かなり読み応えがあって勉強になります。
http://gihyo.jp/admin/serial/01/how_hadoop_works
2015/9/25 追記:
- [日本語]Impalaのスケーラビリティ検証: どれだけのユーザが同時にクエリ実行できるか?
複数ユーザがImpalaのクエリを実行した際、どれだけスケール/遅延するのかのテスト結果が記載されています。(9/9のブログの日本語版)
Cloudera | エンタープライズデータクラウドカンパニーCloudera は、エッジから AI に至るまで、あらゆる場所のあらゆるデータのためのエンタープライズデータクラウドを提供します - Impalaで結果の表示を動的に進捗表示する(英語:動画あり)
Cloudera Blog - - AtScale Blog:
Blog - AtScaleLearn more about AtScale and get the latest news on cloud migration, self-service analytics, data governance, enterprise data warehouse modernization and the bi...
2015/9/9 追記:
- 複数ユーザーでImpalaを使う場合、どこまでスケールするのかをテストした結果のブログ(9/25に日本語版公開)
Cloudera Blog - - Impalaの開発者向けブログがスタート
ImpalaApache Impala is a modern, open source, distributed SQL query engine for Apache Hadoop.
2015/7/22 追記:
- Impalaを実行エンジンにしてPythonの分析用フレームワークを実行できる、Ibisがリリースされました!PandasなどのPythonのコードを大規模環境で高速に実行できます!
2015/7/14 追記:
- Impalaのロードマップ 2015年版
2015/4/27 追記:
- Impala 2.2のリリースノート http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_new_features.html?scroll=new_features#new_features_220_unique_1
- S3に対応してます!
- Impalaのサイジングについて。何ノードぐらい必要か? http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/impala_cluster_sizing.html
Impala情報まとめ
Impalaとは
Cloudera Impalaとは、Apacheライセンスで公開されているオープンソースソフトウェア。
Impalaの目的
短時間でインタラクティブな分析を行えるようにすること。つまりはデータサイエンティストなどが、低レイテンシでインタラクティブにクエリを行える仕組みを実現する。
おおざっぱなイメージとしては、Hiveのクエリを短時間で実行できるエンジンと考えると分かり易い。(但し単純なHiveの置き換えのために開発されたものではない)。
GoogleのDremel、GoogleのF1に影響を受けて開発された。
ImpalaとHiveの戦略について
なぜHiveを高速化せずにImpalaを開発したのか、についての翻訳された記事です。アプローチがわかって面白いですね。http://www.cloudera.co.jp/blog/20140107-impala-v-hive.html
- できること
- Hiveメタストアを利用する。Hiveとの親和性が高い
- 低レイテンシでのクエリ(Hiveに比較して数倍〜数十倍速い。※データセットの量とクエリに依存)
- ODBCでの操作
- C++のUDF/HiveのUDF(Java)の両方が利用可能
- サポートしているファイルフォーマット
- Parquet / Text /Avro / RCFile / SequenceFile
- できないこと
- Netsedフォーマット(現在対応中)
- 耐障害性
OSSでの開発・貢献について
- Impalaに貢献するためには?Contributing to Impala
- Impalaのgerrit(コードレビューシステム): http://gerrit.cloudera.org:8080/#/q/status:open
- Nested Types in Impala: https://github.com/cloudera/Impala/blob/gh-pages/gh-docs/nested-types-alex-b-march-2015.pdf
- Impala on Docker https://registry.hub.docker.com/u/cloudera/impala-dev/
書籍
- 公式ページ: http://impala.io/impala-books.html
- Getting started with Impala (O’Reilly) http://shop.oreilly.com/product/0636920033936.do
- Cloudera Impala (オライリー)無料です! http://www.oreilly.co.jp/books/9784873116723/
論文/アーキテクチャ
- VLDBでのIBMによる論文: “SQL-on-Hadoop: Full Circle Back to Shared-Nothing Database Architectures”
- ベンチマークなども出ています。(ちょっと古いですが過去のブログ)
- CIDR 2015の論文: “Impala: A modern, open-source SQL engine for Hadoop (PDF)“ とスライド
- アーキテクチャのページ http://impala.io/overview.html
- Cloudera Impalaのアーキテクチャブログ(若干古い)
パフォーマンス
- Impala Performance Update: Now Reaching DBMS-Class Speed
- Hive 0.12+ORCFileとImpala 0.11+Parquctでの比較、およびDBMS-YとImpalaの比較。共にTPC-DSでのベンチマークの結果が掲載されています。
技術情報など
日本でのセミナー等の資料
- 道玄坂LT祭り資料 : Impala – Hadoop用の最高の分析エンジン (2015/3)
- Tokyo Impala Meetupの情報 (2014/11)
- 当日の公開資料数点やTogetterの情報あり
- Hadoop Conference Japan 2014での @shiumachi 氏の講演資料 (2014/7)
- (ベンチマークなどあり)
※以下は2012/12/4のブログとほぼ同じ内容で、かなり古い情報です。参考のために残しておきます。
Cloudera Impalaオフィシャル情報(英語)
- Cloudera公式: Cloudera Enterprise RTQ (Powered by Cloudera Impala) Cloudera Impalaの製品紹介
- Cloudera blog: Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real プロジェクト発表時のブログ
- Impala: Real-time Queries in Hadoop 動画(60分)
- Cloudera Impala 上記動画のスライドのみ
- Cloudera Blog: Cloudera Impala Beta (version 0.2) and Cloudera Manager 4.1.1 Now Available 2011/11/15
- Blog: External Hands-on Experiences with Cloudera Impala ロゴ(?)とリンク集:本ブログに掲載されていないものもある
- Cloudera impala HUGか何かの発表資料
Cloudera Impalaオフィシャル情報(日本語)
- Coudera: Cloudera Enterprise RTQ Cloudera Impalaの製品紹介
- Cloudera Blog: Cloudera Impala:Apache Hadoopで実現する、リアルのためのリアルタイムクエリ(上記の日本語版)
ソースコード、ドキュメント
- Source Code (GitHub) GitHubのレポジトリ
- Impalaダウンロードページ
- Demo VM 仮想マシンのイメージ:Impalaを手軽に試したい人向け
- Cloudera Impala Beta Documentation リリースノート、ドキュメント、FAQ
個人的なお勧め情報
- 米Cloudera Univerisy: Introduction to Impala: Cloudera Univesity – Cloudera eLarningトレーニング(無料!でも現在は英語のみ
技術情報
- Inside Impala – Query Exec Engine- @oza_x86氏によるQuery Engineの資料
- Inside Impala – Execution Tree and Node @repeatdly氏によるHSR#13スライド
- Cloudera Impala 低レイテンシクエリエンジン @shiumachi氏によるImpalaの日本語説明資料
- Impala Q&A Cloudera World Tokyo 2次会で、CTOとの技術的な話のまとめ – @choplinさん 2012/11/9
- https://gist.github.com/3950123″>about impala @repeatedlyさん
- https://gist.github.com/3970461″>Impala BE メモ @oza_x86さん
評価、ベンチマーク
- CDH4?Impala? とっくに本番環境に導入してあるぜ! ~まさに外道~ @GedowFather氏による現在公開されている中で最も情報量の多い資料
- 37signals: Impalaのベンチマーク:Impala, Hive, MySQLの比較
- Cloudera Impalaの性能評価(Hiveとの比較 @sudabon さんによるHiveとImpalaの比較スライド
References
- Dremelの論文
- Column File Format (カラムファイルフォーマット):Trevni
- http://hive.apache.org/”>Apache Hive
- Google F1 – The Fault-Tolerant Distributed RDBMS Supporting Google’s Ad Business
ニュース、ブログ(日本語)
- Togetter: ソースコードリーディングまとめ @76whizkidz氏によるまとめ
- Togetter: GedowFatherさんがImpalaを本番投入した件 @GedowFatherさんの公開ベンチ。資料は別途まとめられている 2012/11/16
- 外道父の匠:Cloudera Impala (Beta) File format & Compression codec 2012/11/12
- ITPro: 「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO 日経ITPro 中田さんによるCloudera CTO Amrのインタビュー記事
- Cloudera World Tokyoにいってきた @tagomorisさんのブログ
- Cloudera Worldのメモ: Impala near-Term Features:
- 外道父の匠:How to install Cloudera Impala (Beta) on Debian
- Impalaインストール時の注意事項
- Wired: グーグルの機密技術をオープンソースに活かす、情熱のパン職人 2012/11/02
- @IT: ClouderaがHadoop用リアルタイムクエリエンジンを発表 2012/10/29
- PublicKey: HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 2012/10/26
- HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 [#cbajp ] 2012/10/26
- Tech Blog:Impala速攻レビュー 2012/10/24 @kernel023
- 科学と非科学の迷宮Cloudera Impala がリリースされました 2012/10/24 @shiumachi氏
News, Blogs(English)
- CTOvision: Cloudera Impala – Closing the Near Real Time Gap working with BIGDATA 少しベンチマークがある
- Nail Hadoop With Impala
- Quora: Does Cloudera Impala have any drawbacks when compared with Hive?
- From Zero to Impala in Minutes Apache Whirrを使用して EC2 にImpalaをセットアップする手順
- Blog: Cloudera Impalaのチートシート 2012/11/21
- Blog: ImpalaとHiveのインストール、設定、実行 2012/11/21
- QlikTech Integrates with Cloudera Impala to Deliver QlikView Direct Discovery for Big Data Analytics 2012/11/14
- Quora: Is Impala aiming to be an open source alternative to existing MPP solutions? – Impalaは既存のMPPソリューションに対するOSSの代替を狙っているのか
- Quora: Isn’t Cloudera Impala doing the same job as Apache Drill incubator project? – ImpalaとDrillの違い
- Wired:Marcel Kornacker, a software engineer with Cloudera(Cloudera Impalaの開発者のインタビュー)
- Wired: Man Busts Out of Google, Rebuilds Top-Secret Query Machine (Wiredの記事:開発者のMarcelとGoogle F1の話)必見です!
- Cloudera Impala
- Cloudera Impala: Processing Petabytes at The Speed Of Thought</li>
- datanami: Cloudera Runs Real-Time with Impala
- We are in the era of Real-Time Analytics
- InformationWeek: Cloudera Debuts Real-Time Hadoop Query
- Register: Cloudera’s Project Impala rides herd with Hadoop elephant in real-time
- ZDNet: Cloudera’s Impala brings Hadoop to SQL and BI
- Tableauプレスリリース:Tableau Software Partners with Cloudera to Run Real-Time Big Data Queries with Cloudera Impala
- New York Times: Big Data in More Hands 2012/10/24