Cloudera ManagerでHBaseのセットアップ

なんとEMR上でHBaseが利用できるようになったようです[1]。素晴らしい。
Hadoopの象本[2]に対して馬本とも呼ばれている、Lars George著のHBaseバイブル的存在、米O'Reilly「HBase: The Definitive Guide」[3]の日本語版が来月登場予定[4]とのことです。米国では5月にHBaseCon[5]というカンファレンスが開催されましたが、今後は日本でもHBaseがますます盛り上がりを見せるかもしれませんね!
さて、HBaseに関しても、オンプレミスで構築したいというケースは多いと思います。HBaseの環境の構築ならCloudera Manager[6]というツールを使うこともできます。このCloudera ManagerのFree Editionは50ノードまで無償で利用することができ、かなり簡単にHadoop/HBaseの環境を簡単に構築できます。
(HBaseの構築だけではなく、Hadoop全般:HDFS,MapReduce,YARN,Oozie,なども)
Cloudera Managerの有償版というものはなく、Cloudera Enterpriseのサブスクリプションを購入すると利用することができるようになります。
さて話は戻りますが、もちろん本格的なHBase運用にはインストールだけではなく、設定、モニタリング、ログの収集など運用にまつわる様々な知識も必要になります。が、Cloudera ManagerでのHBaseのセットアップはあまりにも簡単でした。これは誰かに伝えねば!ということで、スクリーンショットでその流れをご紹介します。

そうそう、Cloudera Manager 4.0からは日本語のメニューが表示されるようになりました。ブラウザの言語設定で切り替えられるので、他の言語に切り替えることも可能です。
下記はHBaseのサービスを追加、起動するまでの手順です。(画像をクリックすると拡大します)

  1. サービス一覧:HDFS、MapReduce、Zookeeperが設定済みです
    hbase1
  2. サービスの追加画面:ここでHBaseをチェックします
    hbase2
  3. 依存関係:HBaseにはZookeeperが必要なので、チェック。
    hbase3
  4. ホストへの割り当て:今回はスレーブが1台しかなかったので Master と ResionServerを同居
    hbase4
  5. 設定の変更の確認:推奨値が表示されるので、AcceptするかSkipします
    hbaset
  6. クラスタの準備:上記の設定が自動的に行われます
    hbase6
  7. おめでとうございます:設定が終わりました。ただ、HBaseサービスは開始していません。
    hbase7
  8. サービスの開始:全部止まっていたので、HDFS->Zookeeper->HBaseの順序で開始します
    hbase8
  9. サービスの開始(確認):HBaseを開始しても良いかどうかの確認です
    hbase9
  10. サービス開始中:MasterとResionServerが開始しています
    hbase10
  11. 動作中:無事にHBaseサービスも開始されました。
    hbase11
  12. ステータス:良好です(笑
    hbase12
  13. お約束のwebUIでの確認。(当たり前ですが)ちゃんと表示されます
    hbase13

といったように、深く考えなくてもHBaseを開始することができました。
もちろんこの環境は実験用です。ノードが1台なんて現実ありえませんし、設定もデフォルトのままなので、正しく見直す必要があります。(そもそもデフォルト値が何かを知っておかないと怖い)。しかしHBaseクラスタの構築がこんなに簡単にできるなんて、世の中楽になりましたね(笑
一方、ツールに依存してしまうという弊害もあります。わけわからず構築して運用すると、あとで痛い目にあうなんてことがありそうですね。HBaseに限らずですが、正しく理解した上で、ツールを使えるところは使う、使わないところはPuppetやChefなどで設定を管理するなど、環境/状況に応じて利用してみて下さい。
Cloudera Managerについてはまたの機会に。
[1]: http://aws.typepad.com/aws_japan/2012/06/apache-hbase-on-amazon-emr-real-time-access-to-your-big-data.html
[2]: http://www.oreilly.co.jp/books/9784873115030/ O'Reilly Japan, Hadoop 第2版
[3]: http://ofps.oreilly.com/titles/9781449396107/
[4]: http://www.oreilly.co.jp/catalog/soon.html (2012/6/15時点)
[5]: http://www.hbasecon.com/
[6]: http://www.cloudera.com/products-services/tools/