hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

続)Cloudera Impala 情報

Cloudera Impala情報まとめ

夜中に投稿したツイートがImpalaと共に駆け抜けて行ってしまったので、個人用にまとめておきます。頻繁にアップデートしているので更新履歴は最下部をご覧下さい。(11/05更新)

Hadoop World Video

  1. The Cube – Strata-Hadoop World 2012 – Marcel Kornacker
  2. http://www.youtube.com/watch?v=GJu2x3rlfSQ&feature=youtu.be

Cloudera公式 / Cloudera Official

  1. 米Cloudera: Cloudera Enterprise RTQ (Powered by Cloudera Impala)
  2. http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/cloudera-enterprise-RTQ.html
  3. 米Cloudera Univerisy: Introduction to Impala: Cloudera Univesity – Cloudera eLarningトレーニング(無料!でも現在は英語のみ)
  4. Apache Hadoop training from Cloudera University
    Cloudera University—the industry's only truly dynamic Hadoop training curriculum that’s updated regularly to reflect the state-of-the-art in big data.
  5. 米Cloudera blog: Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real
  6. Cloudera Impala: Real-Time Queries in Apache Hadoop, For Real - Cloudera Engineering Blog
    After a long period of intense engineering effort and user feedback, we are very pleased, and proud, to announce the Cloudera Impala project. This technology is...
  7. Cloudera ブログ(日本語):Cloudera Impala:Apache Hadoopで実現する、リアルのためのリアルタイムクエリ(上記の日本語版)
  8. 機械学習 | 分析 | クラウド - Cloudera
    すべてのデータが安全に制御された場所に一元的に収集され、いつでもどの部門からでもアクセスできるとしたら、貴社のビジネスではどんなことが可能になるか、想像してみてください。
  9. ソースコード / Source Code:GitHub

  10. https://github.com/cloudera/impala

  11. Cloudera公式: Download page
  12. https://ccp.cloudera.com/display/SUPPORT/Downloads
  13. Cloudera プレスリリース(Japanese)
  14. http://www.cloudera.co.jp/news-event/20121025.html

日本語のNews/Glog (Japanese)

  1. 日本語ブログ: Cloudera Impala がリリースされました – 科学と非科学の迷宮
  2. Cloudera Impala がリリースされました - 科学と非科学の迷宮
    (2012/10/25 15:48 追記)Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューシ...
  3. 日本語ブログ:Impala速攻レビュー(昨日書いたブログ)
  4. impala速攻レビュー!!
    米国で開催されている Strata Conf + Hadoop World 2012 で、ついに Cloudera Impala(Public Beta) が発表されました!Impalaとは?Cloudera Impala (はオープン...
  5. CBA – Cloud News Japan: HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 [#cbajp ]
  6. HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開

  7. PublicKey: HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開
  8. HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開
    Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Clou...
  9. ClouderaがHadoop用リアルタイムクエリエンジンを発表
  10. ClouderaがHadoop用リアルタイムクエリエンジンを発表
    Hadoop用のリアルタイムクエリを高速に実現するプロダクトがApacheライセンスで登場。リアルタイムデータクエリとBI的な利用を両立させる手法に選択肢が広まる
  11. グーグルの機密技術をオープンソースに活かす、情熱のパン職人

International News / 海外のニュースサイト他

  1. New York Times: Big Data in More Hands
  2. Big Data in More Hands
    There is a lot more data around than statisticians and engineers who know how to analyze it. Cloudera and other software companies are trying to create programs...
  3. 米Wired: Man Busts Out of Google, Rebuilds Top-Secret Query Machine (Wiredの記事:開発者のMarcelとGoogle F1の話)必見です!
    http://www.wired.com/wiredenterprise/2012/10/cloudera-impala-hadoop/

  4. 米Wired:Marcel Kornacker, a software engineer with Cloudera(Cloudera Impalaの開発者のインタビュー)
  5. WORLD’S MOST WIRED Software Engineer

  6. 米Tableauプレスリリース:TableauからImpalaを利用できるように: Tableau Software Partners with Cloudera to Run Real-Time Big Data Queries with Cloudera Impala
  7. Tableau Software Partners with Cloudera to Run Real-Time Big Data Queries with Cloudera Impala
    Seattle, WA (PRWEB) October 24, 2012 -- Tableau Software, the global leader in rapid-fire business intelligence software, today announced it is one of the
  8. 米ZDNet: Cloudera’s Impala brings Hadoop to SQL and BI
  9. Cloudera’s Impala brings Hadoop to SQL and BI | ZDNet
    Big Data darling Cloudera's Impala product promotes SQL to peer-level with MapReduce.
  10. Register: Cloudera’s Project Impala rides herd with Hadoop elephant in real-time
  11. Cloudera's Project Impala rides herd with Hadoop elephant in real-time
    Life's no longer a batch
  12. 米InformationWeek: Cloudera Debuts Real-Time Hadoop Query
  13. http://www.informationweek.com/software/information-management/cloudera-debuts-real-time-hadoop-query/240009673
  14. We are in the era of Real-Time Analytics
  15. Good night, Posterous
  16. datanami: Cloudera Runs Real-Time with Impala
  17. http://www.datanami.com/datanami/2012-10-25/cloudera_runs_real-time_with_impala.html
  18. Cloudera Impala: Processing Petabytes at The Speed Of Thought
  19. http://www.drdobbs.com/open-source/cloudera-impala-processing-petabytes-at/240012477
  20. Cloudera Impala
  21. http://the-paper-trail.org/blog/cloudera-impala/

技術情報サイト(日本語)

  1. 日本語ブログ:@repeatedly さんによるまとめ
  2. Impala
    Impala. GitHub Gist: instantly share code, notes, and snippets.
  3. Impala BE メモ: @oza_x86 さんによる技術情報
  4. https://gist.github.com/3970461

リファレンス / References

  1. Dremelの論文
  2. Dremel: Interactive Analysis of Web-Scale Datasets – Google AI
  3. Column File Format (カラムファイルフォーマット):Trevni
  4. Trevni Specification - Trevni: A Column File Format
  5. Apache Hive (Apache公式)
  6. Apache Hive TM
  7. F1 – The Fault-Tolerant Distributed RDBMS Supporting Google’s Ad Business
  8. http://static.googleusercontent.com/external_content/untrusted_dlcp/research.google.com/en/us/pubs/archive/38125.pdf

Impala雑記

なお昨日PostしたImpalaの検証結果ですが、HDFS上にテキストファイルとしてMovieLensデータを格納しました。データストアは単なるHDFS(HBaseではない)で、フォーマットはSequenceFileではありません。(RCFileはまだ?サポートされてないから試せない)。
メタ情報とHDFSに格納しているデータは同一なので、Hiveで作成した同じテーブルに対してhiveとimpalaから順番にアクセスしたものです。
Impalaは現状パブリックベータ版です。UDFがなかったりと制約も多いので、単純にHive(MapReduce)の置き換えにならないケースも多いでしょう。でも実際ベータ版とはいえ既に広く本番環境で検証されていますし、既存のHiveテーブルに対するクエリがそのままImpalaから利用できる場合は強力です。
OSSでもありますし、今後Impalaがどんなスピードで進化してビッグなデータな世界を駆け抜けて行くのか、駆け抜けて行けるのか楽しみですね。
まぁ実際触っていただく方が100倍ご理解いただけるかなぁ、と思うので、インストールしなくても簡単に試せる仮想マシンイメージも用意されていますので、是非トライしてみてください!

更新履歴

2012/10/25 11:40 @repeatedly さんのまとめへのリンクを追加
2012/10/25 15:40 Clouderaの日本語ブログ記事、Dremel、Trevniへのリンクを追加
2012/10/25 17:15 Clouderaのプレスリリースを追加
2012/10/26 16:15 PublicKeyさんのブログ、ZDNetへのリンク他を追加、カテゴリを分離
2012/10/27 00:01 海外記事一件追加
2012/10/28 16:35 Hadoop WorldでのMercelのビデオを追加
2012/10/29 9:50 CBA – Cloud News Japanさんの記事を追加、ozaさんのImpalaの解析情報の追加
2012/10/29 14:45 New York Times の記事を追加
2012/10/29 16:14 @ITの記事を追加
2012/10/29 19:20 Google F1の資料、Impalaの開発者のMarcelのインタビュー記事を追加しました
2012/10/29 23:10 datanami追加
2012/10/30 23:10 Dr.Dobb’sの記事追加
2012/11/02 12:00 Wiredの日本語版の記事を追加
2012/11/05 12:00 Paper Trail の記事を追加