新!Hadoopを10分で試す(1) CDH5の仮想マシンを使ってみる

**この記事の内容は若干古くなっています。まとめページもご覧下さい**
本日、CDH5 / Cloudera Manager 5に対応した仮想マシンイメージが公開されました。
今まで「Hadoopを10分で試す」シリーズとしてバージョンアップを繰り返してきましたが、ようやく最初から最新バージョン(CDH5)を試せるようになりました。
とはいえ、先日、クラウド上でHadoopを使ってみることができる demo.gethue.com というサイトが公開されています。

ライブデモサイト

このサイトは、Hadoopのエコシステムの一つであるHueを使用して、ブラウザからHadoopを操作することができるサイトです。ImpalaやHive、Searchなどがブラウザから利用できるので、ちょっと触ってみたい/使ってみたいだけなら便利そうです。もう少しチュートリアルが充実すると良いのですが、ダミーデータも含まれているので、仮想マシンのインストールも面倒だ、という方には良いかもしれませんね。TwitterやYelpのデータが準備されており、Solr(日本語だと検索と表示される)を使って検索したりできます。
demo_gethue

仮想マシンイメージのダウンロード

さて仮想マシンの環境を作ってみましょう。まずは前回同様に、仮想マシンイメージをダウンロードします。以下の画面のようにダウンロードサイトからDownload Cloudera VM (5.0) をクリックし、必要なイメージをダウンロードします。
download_cloudera_com
download_quickstartvmダウンロードできるVMイメージは、現在以下の各バージョンとなっているようです。

  • CDH5.0 (VMWare / KVM / VirtualBox)
  • CDH4.6 (VMWare / KVM / VirtualBox)

この仮想マシンでは、ImpalaやSparkが動くようにコンフィグレーションされているためか、最低メモリが 8GB と敷居が高くなっているので、ご注意下さい。(不要なサービスを止めれば良さそうですが)

解凍&起動

今回はVMWare版のCDH5.0のイメージをダウンロードしてみました。7z形式で圧縮されているので、7Zipなどの解凍ツールが必要になります。
解凍後、VMWareで仮想マシンを起動します。起動直後のスクリーンショットは以下のようになりました(前回とあまり変わらないですね)
image1

 Cloudera Managerの起動

上記のスクリーンショットの紫色のボタンをクリックすると、Cloudera Managerの管理画面が表示されます。最初は I Agree を押して先に進みましょう。
image2image3ユーザー名とパスワードは、共に「cloudera」です。
image4立ち上がっているサービスの数が多いですね。メモリが8GBも必要なことがわかります。
2014/4/23追記:上記のスクリーンショットは全てのサービスを開始した後で取得したものでした。デフォルトでは全てのサービスが立ち上がるわけではありません。(下記参照)
demo_vm_newまた、初期状態だと Cloudera Management Serviceが正しく起動されていないようです。右側の▲をクリックし、再起動しておきましょう。

仮想マシンを日本語化

英語のままでも良いのですが、やはり日本語だと安心感(?)があります。日本語フォントをインストールし、ブラウザの言語設定に日本語を追加しましょう。
[code]
[cloudera@localhost ~]$ sudo yum -y groupinstall japanese-support
Loaded plugins: fastestmirror
Determining fastest mirrors
epel/metalink | 4.4 kB 00:00
* base: mirrors.stuhome.net
* epel: mirrors.vinahost.vn
* extras: mirrors.btte.net
* updates: ftp.jaist.ac.jp
base | 3.7 kB 00:00
base/primary_db | 4.4 MB 00:05
cloudera-manager | 951 B 00:00
cloudera-manager/primary | 4.0 kB 00:00
cloudera-manager
<略>
kasumi.x86_64 0:2.5-1.1.el6
libgxim.x86_64 0:0.3.3-3.1.el6
notify-python.x86_64 0:0.1.1-10.el6
pyxdg.noarch 0:0.18-1.el6
vlgothic-fonts-common.noarch 0:20091202-2.el6
Complete!
[cloudera@localhost ~]$
[/code]
ブラウザの設定は前回のブログを参照して下さい。ブラウザを終了し、ログインし直すと以下のように表示されました。(サービスの状態がオレンジなのは、リソースが少ないためです)
image5
とりあえず無事に動きました。MapReduceはYARNにより実行されるようになっています。この環境は1ノードの疑似分散環境ですが、Apache SparkやImpalaも試してみることができそうです。
次回はYARN上でHiveやMapReduceジョブの実行、Impalaを試してみる予定です。

コメント