Cloudera Impala インストール時の注意事項

Cloudera Impalaのインストール

Cloudera Impalaのインストールは

  1. マニュアル
  2. Cloudera Manager経由

のいずれかで行うことが可能です。

後者の方がImpalaをインストール/実行は簡単ですが、Cloudera Manager4.1をインストールしなければならないという制約があります。(とはいえ、50ノードまでは無償で利用可能です)
一番簡単なのは仮想マシンイメージ(KVM/VMWare/VirtualBoxの3種類が用意されている)でしょうね。

現状のImpalaは実行環境として、RHEL6.2/CentOS 6.2のLinux環境が必要です。
(未検証ですがRHEL6.3/CentOS6.3なら動作するかも?)
ImpalaはC++で開発されており、共有ライブラリの実行環境に依存します。他のLinuxディストリビューションをご利用の方は環境を用意する必要がありますね。

https://ccp.cloudera.com/display/IMPALA10BETADOC/Installing+Impala

Impala works with CDH that is installed on RHEL/CentOS 6.2. You cannot install Impala on RHEL/CentOS 6.2 and then use that installation to query information stored on CDH installations that are not on RHEL/CentOS 6.2 systems. This means that if you have CDH deployed on operating systems such as Debian/Ubuntu, SuSE, or RHEL/CentOS 5.7, you cannot use Impala with that installation.

Posted in Uncategorized

impaladが使用するポート番号

*この情報は未検証なので、確認ができたらアップデートします*

Impaladが起動しないというツイートを見かけたので調査してみました。

Impaladを起動する際にNameNodeのポート番号を指定する必要があります。
リリースノートによると現在下記の制約事項があります。

https://ccp.cloudera.com/display/IMPALA10BETADOC/Cloudera+Impala+1.0+Beta+Release+Notes
(続きを読む)

Posted in Uncategorized

impala速攻レビュー!!

米国で開催されている Strata Conf + Hadoop World 2012 で、ついに Cloudera Impala(Public Beta) が発表されました!

Impalaとは?

Cloudera Impala (http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/cloudera-enterprise-RTQ.html)はオープンソースのソフトウェアで、一言で言えばリアルタイムクエリエンジンです。Hiveを使っている方やSQLに馴染んでいる方には利用し易いSQLライクなHiveQLを利用して、数秒でHDFSまたはHBaseに格納されたデータを照会できます。

ImpalaはApache HiveのメタデータやHiveQL、ODBCドライバ、Beeswaxを利用します。Hiveと違い、MapReduceを使用するのではなく、独自の処理フレームワークを使用することで、数倍〜数十倍の性能改善となっています。正直、Hiveとの単純な比較をしてみましたが、爆速です。最初に動かしたときは興奮して鼻血が出る程でした。

もちろんHadoop同様に全ての人にとってメリットがある万能なソフトウェアではないでしょうが、例えば今まで10分かかっていたクエリが1分で終わるようなイメージです。Hiveを利用している一部の人にとってはまさに驚愕的なレベルで登場したと言っても過言じゃないでしょうか?

Impalaの詳細はこのあと徐々に情報が公開されていくことになるでしょう、現時点では @shiumachi 氏のブログにも情報が公開されているので、参照されると良いでしょう。
(続きを読む)

Posted in Uncategorized

CDH4の仮想マシンをCDH4.1にアップデート

本日CDH4.1 (Cloudera’s Distribution including Apache Hadoop) がリリースされました。(*1)

今回のリリースでは

  • NameNode-HAの編集ログがQuorumベースのストレージ領域に書き込み可能に
  • Hiveのメジャーバージョンが0.9に! & HiveServer2
  • OozieのWorkflow builder

など(マイナーアップデートとは思えないほどの)機能追加と不具合修正が行われています。詳細については cdh-user-jp@cloudera.org に投稿された内容(*2)などをご覧下さい。

****
さて本題です。

Apache Hadoopをちょっと試してみたいなと思っても、通常は検証サーバを用意する必要があります。新規にLinuxをインストールしたり、あるいはCygwinの環境用意したりしなければなりません。多くの方はここでやる気が失われてしますようですが、Cloudera社ではHadoopを簡単に検証するために、CDH3、CDH4それぞれを KVM/VMWare/VirtualBoxに対応した仮想マシンのイメージを提供しています。今回はCDH4のVMWare仮想マシンイメージをダウンロードし、CDH4.1にアップデートしてみました。
(続きを読む)

Posted in Uncategorized