Cloudera Impala情報まとめ
夜中に投稿したツイートがImpalaと共に駆け抜けて行ってしまったので、個人用にまとめておきます。頻繁にアップデートしているので更新履歴は最下部をご覧下さい。(11/05更新)
Hadoop World Video
- The Cube - Strata-Hadoop World 2012 - Marcel Kornacker
Cloudera公式 / Cloudera Official
- 米Cloudera: Cloudera Enterprise RTQ (Powered by Cloudera Impala)
- 米Cloudera Univerisy: Introduction to Impala: Cloudera Univesity - Cloudera eLarningトレーニング(無料!でも現在は英語のみ)
- 米Cloudera blog: Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real
- Cloudera ブログ(日本語):Cloudera Impala:Apache Hadoopで実現する、リアルのためのリアルタイムクエリ(上記の日本語版)
- ソースコード / Source Code:GitHub
- Cloudera公式: Download page
- Demo VM
- Cloudera Impala Beta Documentation
- Beta Release Support Policy
- Cloudera プレスリリース(Japanese)



https://github.com/cloudera/impala
https://ccp.cloudera.com/display/SUPPORT/Beta+Support+Policy
日本語のNews/Glog (Japanese)
- 日本語ブログ: Cloudera Impala がリリースされました - 科学と非科学の迷宮
- 日本語ブログ:Impala速攻レビュー(昨日書いたブログ)
- CBA – Cloud News Japan: HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 [#cbajp ]
- PublicKey: HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開
- ClouderaがHadoop用リアルタイムクエリエンジンを発表
- グーグルの機密技術をオープンソースに活かす、情熱のパン職人


HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開


International News / 海外のニュースサイト他
- New York Times: Big Data in More Hands
- 米Wired: Man Busts Out of Google, Rebuilds Top-Secret Query Machine (Wiredの記事:開発者のMarcelとGoogle F1の話)必見です!
http://www.wired.com/wiredenterprise/2012/10/cloudera-impala-hadoop/ - 米Wired:Marcel Kornacker, a software engineer with Cloudera(Cloudera Impalaの開発者のインタビュー)
- 米Tableauプレスリリース:TableauからImpalaを利用できるように: Tableau Software Partners with Cloudera to Run Real-Time Big Data Queries with Cloudera Impala
- 米ZDNet: Cloudera’s Impala brings Hadoop to SQL and BI
- Register: Cloudera's Project Impala rides herd with Hadoop elephant in real-time
- 米InformationWeek: Cloudera Debuts Real-Time Hadoop Query
- We are in the era of Real-Time Analytics
- datanami: Cloudera Runs Real-Time with Impala
- Cloudera Impala: Processing Petabytes at The Speed Of Thought
- Cloudera Impala

WORLD’S MOST WIRED Software Engineer



技術情報サイト(日本語)
- 日本語ブログ:@repeatedly さんによるまとめ
- Impala BE メモ: @oza_x86 さんによる技術情報

リファレンス / References
- Dremelの論文
- Column File Format (カラムファイルフォーマット):Trevni
- Apache Hive (Apache公式)
- F1 - The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business

Impala雑記
なお昨日PostしたImpalaの検証結果ですが、HDFS上にテキストファイルとしてMovieLensデータを格納しました。データストアは単なるHDFS(HBaseではない)で、フォーマットはSequenceFileではありません。(RCFileはまだ?サポートされてないから試せない)。
メタ情報とHDFSに格納しているデータは同一なので、Hiveで作成した同じテーブルに対してhiveとimpalaから順番にアクセスしたものです。
Impalaは現状パブリックベータ版です。UDFがなかったりと制約も多いので、単純にHive(MapReduce)の置き換えにならないケースも多いでしょう。でも実際ベータ版とはいえ既に広く本番環境で検証されていますし、既存のHiveテーブルに対するクエリがそのままImpalaから利用できる場合は強力です。
OSSでもありますし、今後Impalaがどんなスピードで進化してビッグなデータな世界を駆け抜けて行くのか、駆け抜けて行けるのか楽しみですね。
まぁ実際触っていただく方が100倍ご理解いただけるかなぁ、と思うので、インストールしなくても簡単に試せる仮想マシンイメージも用意されていますので、是非トライしてみてください!
更新履歴
2012/10/25 11:40 @repeatedly さんのまとめへのリンクを追加
2012/10/25 15:40 Clouderaの日本語ブログ記事、Dremel、Trevniへのリンクを追加
2012/10/25 17:15 Clouderaのプレスリリースを追加
2012/10/26 16:15 PublicKeyさんのブログ、ZDNetへのリンク他を追加、カテゴリを分離
2012/10/27 00:01 海外記事一件追加
2012/10/28 16:35 Hadoop WorldでのMercelのビデオを追加
2012/10/29 9:50 CBA – Cloud News Japanさんの記事を追加、ozaさんのImpalaの解析情報の追加
2012/10/29 14:45 New York Times の記事を追加
2012/10/29 16:14 @ITの記事を追加
2012/10/29 19:20 Google F1の資料、Impalaの開発者のMarcelのインタビュー記事を追加しました
2012/10/29 23:10 datanami追加
2012/10/30 23:10 Dr.Dobb'sの記事追加
2012/11/02 12:00 Wiredの日本語版の記事を追加
2012/11/05 12:00 Paper Trail の記事を追加