Cloudera Impalaの論文 (CIDR 2015)

CIDR 2015にCloudera Impalaの論文、”Impala: A Modern, Open-Source SQL Engine for Hadoop” のPDFスライドが公開されていました。(そういえばVLDBにも掲載されていましたね)

Impalaは単一ユーザが利用したときのクエリも速いんですが、複数ユーザが同時にクエリを実行した場合の速さも抜群です。一般的に一人でクラスタを使用することはないと思うので、複数ユーザがビッグデータを同時に高速に分析したい、と言う用途にも適していますね。

まぁ、速くて文句を言う人はいないと思いますが(笑、詳細は論文をどうぞ。

なお、下記はスライドのP.39からの抜粋。このグラフは10ユーザーからの同時クエリですが、実際にはさらに多くのユーザーからの並列クエリの場合でも良好なパフォーマンスを叩き出します。

impala_multi_user (続きを読む)

Impala Cookbookというスライドが公開されていました

先ほど公開されたImpala Cookbook(という名前のスライド)をざっと見てみました。

結論:この資料はかなりイイ!

Impalaの基礎からサイジング、ベンチマーク、マルチテナンシー、チューニングなどまで適度にまとまっています。Impala遣いは(あるいは検討している方は)読むべきでしょう。URLは (続きを読む)

Impalaのパフォーマンスについての記事

Impalaのパフォーマンス

https://haifengl.wordpress.com/2014/09/03/big-data-analytics-bigquery-impala-and-drill/

でGoogle Dremel、Google BigQuery、Cloudera Impala、Apache Drill(とHive、Tez)の話が出ています。とは言っても、タイトルにあるにも関わらず、残念ながらDrillの話はほとんど書かれていません。先日のHadoop Conference Japan 2014でも多くのHadoop on SQLのプレゼンが紹介されていましたが、これだけ選択肢が増えてきている現状では、後発でのメリットを強く打ち出せないと、選択するのが難しくなってきますね。

さてImpalaですが、ImpalaはなぜHiveよりもパフォーマンスが高いのかについての特徴が掲載されていたので、抜粋して訳してみました。(誤訳があればご指摘下さい) (続きを読む)

無料Impala本

昨年アナウンスしていた Cloudera Impala 本の日本語版、(ようやく|ついに)公開されています。(#既に去年には準備できていたんですが… (^-^;)

オライリーさんのサイトから無料でダウロードできます。ダウンロードはこちらから。

特に「Impalaって何?」という方は参考になるでしょう。。

Imapalaのアーキテクチャは、前に書いたloudera Impalaのアーキテクチャブログも参考にどうぞ。

Cloudera ImpalaとCatalog Serviceの話

14日目です

「Announcing Support for Impala with Amazon Elastic MapReduce」
https://twitter.com/mikeolson/status/411544952145854464

でも紹介されているように、Amazon EMRでCloudera Impala(以下Impala)が利用できるようになったようです!(他のサービスやアプライアンスにもImapalaを利用しているところがいくつかあるようです)

また、Hadoopアドベントカレンダー2013@brfrn169さんの12日目のブログもImpalaの話題です「Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました」。興味深い内容が盛りだくさんですね。

さて、本日は最近リリースされたImpala 1.2.Xで利用できるようになった Catalog Service についての話題です(前にちらっと触れましたが、、)。昨日メーリングリストでわかりやすくまとまっていたので、日本語でまとめてみました。 (続きを読む)

Cloudera Impala 1.2でHiveのUDFを試す

Cloudera Impala 1.2リリース!

Cloudera 5 (CDH5, Cloudera Manager 5)のアナウンスの陰に隠れて、Cloudera Impala 1.2が公開されています。このリリースで、ついに「ユーザー定義関数(UDF)、ユーザー定義集約関数(UDAF)に対応!(祝)」しました!

早速試してみようと、Mavenをインストールし、Hive0.11用のUDFをビルドするまではうまくいったんですが、なぜかHiveでUDFを実行するのがうまくいかず、試行錯誤の末断念。諦めて既存のHive UDFのjarファイルにある定義関数を試すことにしました。以下手順です。(基本的にはドキュメントに沿って試しただけです) (続きを読む)

Cloudera Impalaの言語リファレンス

Impalaの言語リファレンス

Impalaは(少なくとも現状では)SQL92に準拠していないので、サポートしていないデータタイプやクエリがあります。ドキュメントが更新されていたので、備忘録がてらリンクを貼っておきます。

ImpalaがサポートしているDML/DDL、節など (続きを読む)

Hadoopを10分で試す(3)HueからHiveとImpalaのクエリを実行する

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

前回のブログでCloudera Managerを日本語化しましたが、同時にHue (http://gethue.com) というHadoopのGUIツールも日本語化されています。

Hueはオープンソースで提供されている、Hadoop用のGUIツールです。GUIからHive、Pig、Impala、HDFS、MapReduce、Oozie、、などの機能を使用することができる、エンジニア以外の方にも使い易いツールです。(ロゴが可愛いw)
Hue logo

今回はHueのいくつかの機能についてはスクリーンショットを、続いてHueからHiveとImpalaを使ったサンプルクエリを実行してみます。
(全ての画像はクリックすると拡大します)
(続きを読む)

Cloudera Impala 1.0 がリリースされました

Impala 1.0 Released

当初の予定より若干遅くなりましたが、Imapalaがリリースされました!
ImapalaはHiveと比較して低レイテンシで実行できるのが特徴です。試行錯誤しながらデータを「弄る」インタラクティブなクエリにより適しています。

いち早く @sudabon さんがベンチマークを公開して下さっています。
http://www.slideshare.net/sudabon/performance-evaluation-of-cloudera-impala-ga

ニュースサイト(時間がないので目に止まったところだけ)