Cloudera Impalaの論文 (CIDR 2015)

CIDR 2015にCloudera Impalaの論文、”Impala: A Modern, Open-Source SQL Engine for Hadoop” のPDFスライドが公開されていました。(そういえばVLDBにも掲載されていましたね)
Impalaは単一ユーザが利用したときのクエリも速いんですが、複数ユーザが同時にクエリを実行した場合の速さも抜群です。一般的に一人でクラスタを使用することはないと思うので、複数ユーザがビッグデータを同時に高速に分析したい、と言う用途にも適していますね。
まぁ、速くて文句を言う人はいないと思いますが(笑、詳細は論文をどうぞ。
なお、下記はスライドのP.39からの抜粋。このグラフは10ユーザーからの同時クエリですが、実際にはさらに多くのユーザーからの並列クエリの場合でも良好なパフォーマンスを叩き出します。
impala_multi_user “Cloudera Impalaの論文 (CIDR 2015)” の続きを読む

Impala Cookbookというスライドが公開されていました

先ほど公開されたImpala Cookbook(という名前のスライド)をざっと見てみました。
結論:この資料はかなりイイ!
Impalaの基礎からサイジング、ベンチマーク、マルチテナンシー、チューニングなどまで適度にまとまっています。Impala遣いは(あるいは検討している方は)読むべきでしょう。URLは “Impala Cookbookというスライドが公開されていました” の続きを読む

Impalaのパフォーマンスについての記事

Impalaのパフォーマンス

https://haifengl.wordpress.com/2014/09/03/big-data-analytics-bigquery-impala-and-drill/
でGoogle Dremel、Google BigQuery、Cloudera Impala、Apache Drill(とHive、Tez)の話が出ています。とは言っても、タイトルにあるにも関わらず、残念ながらDrillの話はほとんど書かれていません。先日のHadoop Conference Japan 2014でも多くのHadoop on SQLのプレゼンが紹介されていましたが、これだけ選択肢が増えてきている現状では、後発でのメリットを強く打ち出せないと、選択するのが難しくなってきますね。
さてImpalaですが、ImpalaはなぜHiveよりもパフォーマンスが高いのかについての特徴が掲載されていたので、抜粋して訳してみました。(誤訳があればご指摘下さい) “Impalaのパフォーマンスについての記事” の続きを読む

無料Impala本

昨年アナウンスしていた Cloudera Impala 本の日本語版、(ようやく|ついに)公開されています。(#既に去年には準備できていたんですが… (^-^;)
オライリーさんのサイトから無料でダウロードできます。ダウンロードはこちらから。
特に「Impalaって何?」という方は参考になるでしょう。。
Imapalaのアーキテクチャは、前に書いたloudera Impalaのアーキテクチャブログも参考にどうぞ。

Cloudera ImpalaとCatalog Serviceの話

14日目です
「Announcing Support for Impala with Amazon Elastic MapReduce」
https://twitter.com/mikeolson/status/411544952145854464
でも紹介されているように、Amazon EMRでCloudera Impala(以下Impala)が利用できるようになったようです!(他のサービスやアプライアンスにもImapalaを利用しているところがいくつかあるようです)
また、Hadoopアドベントカレンダー2013@brfrn169さんの12日目のブログもImpalaの話題です「Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました」。興味深い内容が盛りだくさんですね。
さて、本日は最近リリースされたImpala 1.2.Xで利用できるようになった Catalog Service についての話題です(前にちらっと触れましたが、、)。昨日メーリングリストでわかりやすくまとまっていたので、日本語でまとめてみました。 “Cloudera ImpalaとCatalog Serviceの話” の続きを読む

Cloudera Impala 1.2でHiveのUDFを試す

Cloudera Impala 1.2リリース!

Cloudera 5 (CDH5, Cloudera Manager 5)のアナウンスの陰に隠れて、Cloudera Impala 1.2が公開されています。このリリースで、ついに「ユーザー定義関数(UDF)、ユーザー定義集約関数(UDAF)に対応!(祝)」しました!
早速試してみようと、Mavenをインストールし、Hive0.11用のUDFをビルドするまではうまくいったんですが、なぜかHiveでUDFを実行するのがうまくいかず、試行錯誤の末断念。諦めて既存のHive UDFのjarファイルにある定義関数を試すことにしました。以下手順です。(基本的にはドキュメントに沿って試しただけです) “Cloudera Impala 1.2でHiveのUDFを試す” の続きを読む

Hadoopを10分で試す(3)HueからHiveとImpalaのクエリを実行する

**この記事の内容は若干古くなっています。まとめページもご覧下さい**
前回のブログでCloudera Managerを日本語化しましたが、同時にHue (http://gethue.com) というHadoopのGUIツールも日本語化されています。
Hueはオープンソースで提供されている、Hadoop用のGUIツールです。GUIからHive、Pig、Impala、HDFS、MapReduce、Oozie、、などの機能を使用することができる、エンジニア以外の方にも使い易いツールです。(ロゴが可愛いw)
Hue logo
今回はHueのいくつかの機能についてはスクリーンショットを、続いてHueからHiveとImpalaを使ったサンプルクエリを実行してみます。
(全ての画像はクリックすると拡大します)
“Hadoopを10分で試す(3)HueからHiveとImpalaのクエリを実行する” の続きを読む

Cloudera Impala 1.0 がリリースされました

Impala 1.0 Released

当初の予定より若干遅くなりましたが、Imapalaがリリースされました!
ImapalaはHiveと比較して低レイテンシで実行できるのが特徴です。試行錯誤しながらデータを「弄る」インタラクティブなクエリにより適しています。
いち早く @sudabon さんがベンチマークを公開して下さっています。
http://www.slideshare.net/sudabon/performance-evaluation-of-cloudera-impala-ga
ニュースサイト(時間がないので目に止まったところだけ)