Impalaに関する情報も増えて来たが、Hadoopアドベントカレンダーに備えてここで一旦まとめておく。
Cloudera Impala情報まとめ
Impalaとは
-
Cloudera Impalaとは、Apacheライセンスで公開されているオープンソースソフトウェア(OSS)。
- できること
- できないこと
現在はパブリックベータ。2週間に一回程度更新される予定。
将来的にはCDH(Cloudera's distribution including Apache Hadoop)の一部になることが予定されている。
目的はSQLやBIアプリケーションから短時間でインタラクティブな分析を行えるようにすること。つまりはデータサイエンティストなどが低レイテンシでインタラクティブにクエリを行える仕組みを実現する。
おおざっぱなイメージとしては、Hiveのクエリを短時間で実行できるエンジンと考えると分かり易い。(但し単純なHiveの置き換えのために開発されたものではない)。
GoogleのDremel、GoogleのF1に影響を受けて開発された。
HiveQL、Hiveメタストアが利用可能。Hiveとの親和性が高い
低レイテンシでのクエリ(Hiveに比較して数倍〜数十倍速い。※データセットの量とクエリに依存)
ODBCでの操作(制限あり)
Hive UDF, SerDe
耐障害性
DDL
など、現状はRCFile/Trevniが使えないなど、ベータ版による制限も多い
Cloudera Impalaオフィシャル情報(英語)
- Cloudera公式: Cloudera Enterprise RTQ (Powered by Cloudera Impala) Cloudera Impalaの製品紹介
- Cloudera blog: Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real プロジェクト発表時のブログ
- Impala: Real-time Queries in Hadoop 動画(60分)
- Cloudera Impala 上記動画のスライドのみ
- Cloudera Blog: Cloudera Impala Beta (version 0.2) and Cloudera Manager 4.1.1 Now Available 2011/11/15
- Blog: External Hands-on Experiences with Cloudera Impala ロゴ(?)とリンク集:本ブログに掲載されていないものもある
- Cloudera impala HUGか何かの発表資料
Cloudera Impalaオフィシャル情報(日本語)
- Coudera: Cloudera Enterprise RTQ Cloudera Impalaの製品紹介
- Cloudera Blog: Cloudera Impala:Apache Hadoopで実現する、リアルのためのリアルタイムクエリ(上記の日本語版)
ソースコード、ドキュメント
- Source Code (GitHub) GitHubのレポジトリ
- Impalaダウンロードページ
- Demo VM 仮想マシンのイメージ:Impalaを手軽に試したい人向け
- Cloudera Impala Beta Documentation リリースノート、ドキュメント、FAQ
個人的なお勧め情報
- 米Cloudera Univerisy: Introduction to Impala: Cloudera Univesity - Cloudera eLarningトレーニング(無料!でも現在は英語のみ
技術情報
- Inside Impala - Query Exec Engine- @oza_x86氏によるQuery Engineの資料
- Inside Impala - Execution Tree and Node @repeatdly氏によるHSR#13スライド
- Cloudera Impala 低レイテンシクエリエンジン @shiumachi氏によるImpalaの日本語説明資料
- Impala Q&A Cloudera World Tokyo 2次会で、CTOとの技術的な話のまとめ - @choplinさん 2012/11/9
- https://gist.github.com/3950123">about impala @repeatedlyさん
- https://gist.github.com/3970461">Impala BE メモ @oza_x86さん
評価、ベンチマーク
- CDH4?Impala? とっくに本番環境に導入してあるぜ! ~まさに外道~ @GedowFather氏による現在公開されている中で最も情報量の多い資料
- 37signals: Impalaのベンチマーク:Impala, Hive, MySQLの比較
- Cloudera Impalaの性能評価(Hiveとの比較 @sudabon さんによるHiveとImpalaの比較スライド
References
- Dremelの論文
- Column File Format (カラムファイルフォーマット):Trevni
- http://hive.apache.org/">Apache Hive
- Google F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business
ニュース、ブログ(日本語)
- Togetter: ソースコードリーディングまとめ @76whizkidz氏によるまとめ
- Togetter: GedowFatherさんがImpalaを本番投入した件 @GedowFatherさんの公開ベンチ。資料は別途まとめられている 2012/11/16
- 外道父の匠:Cloudera Impala (Beta) File format & Compression codec 2012/11/12
- ITPro: 「Hadoopは低遅延に向かう」、米クラウデラのアワダラーCTO 日経ITPro 中田さんによるCloudera CTO Amrのインタビュー記事
- Cloudera World Tokyoにいってきた @tagomorisさんのブログ
- Cloudera Worldのメモ: Impala near-Term Features:
- 外道父の匠:How to install Cloudera Impala (Beta) on Debian
- Impalaインストール時の注意事項
- Wired: グーグルの機密技術をオープンソースに活かす、情熱のパン職人 2012/11/02
- @IT: ClouderaがHadoop用リアルタイムクエリエンジンを発表 2012/10/29
- PublicKey: HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 2012/10/26
- HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 [#cbajp ] 2012/10/26
- Tech Blog:Impala速攻レビュー 2012/10/24 @kernel023
- 科学と非科学の迷宮Cloudera Impala がリリースされました 2012/10/24 @shiumachi氏
News, Blogs(English)
- CTOvision: Cloudera Impala – Closing the Near Real Time Gap working with BIGDATA 少しベンチマークがある
- Nail Hadoop With Impala
- Quora: Does Cloudera Impala have any drawbacks when compared with Hive?
- From Zero to Impala in Minutes Apache Whirrを使用して EC2 にImpalaをセットアップする手順
- Blog: Cloudera Impalaのチートシート 2012/11/21
- Blog: ImpalaとHiveのインストール、設定、実行 2012/11/21
- QlikTech Integrates with Cloudera Impala to Deliver QlikView Direct Discovery for Big Data Analytics 2012/11/14
- Quora: Is Impala aiming to be an open source alternative to existing MPP solutions? - Impalaは既存のMPPソリューションに対するOSSの代替を狙っているのか
- Quora: Isn't Cloudera Impala doing the same job as Apache Drill incubator project? - ImpalaとDrillの違い
- Wired:Marcel Kornacker, a software engineer with Cloudera(Cloudera Impalaの開発者のインタビュー)
- Wired: Man Busts Out of Google, Rebuilds Top-Secret Query Machine (Wiredの記事:開発者のMarcelとGoogle F1の話)必見です!
- Cloudera Impala
- Cloudera Impala: Processing Petabytes at The Speed Of Thought</li>
- datanami: Cloudera Runs Real-Time with Impala
- We are in the era of Real-Time Analytics
- InformationWeek: Cloudera Debuts Real-Time Hadoop Query
- Register: Cloudera's Project Impala rides herd with Hadoop elephant in real-time
- ZDNet: Cloudera’s Impala brings Hadoop to SQL and BI
- Tableauプレスリリース:Tableau Software Partners with Cloudera to Run Real-Time Big Data Queries with Cloudera Impala
- New York Times: Big Data in More Hands 2012/10/24