Enterprisezine連載開始!

昨年に続き、翔泳社様のDBOnlineでの連載が始まりました!
今回の連載ではCloudera Managerを使ったHadoopの運用について、数回に渡って連載予定です。

Hadoop運用管理の今

Enterprizezine

Hadoopの運用においても基礎知識が必須であり、本質を理解せずにツールに頼ってしまうのは危険です。しかしその一方で、標準で用意されているツールは互いに連携されておらず、管理者がツールを駆使したり環境などを整備する必要が生じることから、技術者の育成に時間がかかるという問題もあります。

今回は、Hadoopの運用の敷居を下げることに加え、既にHadoopを構築/運用されている方にとっても役立つ内容にしていく予定です。お楽しみに!

※ブログサーバの調子が悪いので、他のサーバに移行するかもしれません。

Hadoopを10分で試す(8)HueからSolrを使う-その2

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

前回のブログでHueからSolrを使用するサンプルを紹介しました。

nrt_tweets search result

今回は、検索結果の表示をカスタマイズしてみます。

Solr Searchのカスタマイズ

HueのSolr SearchにはTemplate Editorがあり、テンプレートのSnippetを変更することでカスタマイズが可能です。
参考ブログはこちらです。

まず注意事項として、今回の仮想マシンに標準で搭載されているFirefox 10.0を使用した場合、テンプレートエディタに問題が生じます。以下に進む前に最新のFirefoxにしておきましょう。

本件、迅速な対応をしてくれた @daisukebe_ さんと Hueの開発チームに感謝です!


$ sudo yum update firefox
Loaded plugins: fastestmirror, refresh-packagekit, security
Loading mirror speeds from cached hostfile
* base: mirror.fairway.ne.jp
* extras: mirror.fairway.ne.jp
* updates: mirror.fairway.ne.jp
Setting up Update Process
Resolving Dependencies
--> Running transaction check
---> Package firefox.x86_64 0:10.0.5-1.el6.centos will be updated
---> Package firefox.x86_64 0:17.0.6-1.el6.centos will be an update
--> Processing Dependency: xulrunner >= 17.0.6 for package: firefox-17.0.6-1.el6.centos.x86_64
--> Running transaction check
---> Package xulrunner.x86_64 0:10.0.5-1.el6.centos will be updated
---> Package xulrunner.x86_64 0:17.0.6-2.el6.centos will be an update
--> Processing Dependency: nss >= 3.14.0 for package: xulrunner-17.0.6-2.el6.centos.x86_64

(略)

手元の環境ではFirefox 17.0になりました。それでは変更して行きましょう。

Collection Manager

上部のメニューから虫眼鏡のアイコンをクリックし、collection managerを開きます。
Collection Manager

nrt_tweetsをクリックし、Template Editorを開きましょう。

Template Editor

デフォルトではこのようになっています。これは冒頭のスクリーンショットにあるように、ツイートの情報を単に表示しているだけです。
template editor

Snippet

ここでは検索結果をどのように表示するかのカスタマイズを行います。
Visual Editorでも変更ができるのですが、今回はSourceタブから直接HTMLを編集します。編集した内容は Cloudera のブログをご覧下さい。
Editor source

Advancedタブで、CSSも変更します。
Editor Advanced

Facets

検索結果を瞬時にフィルタリングするための設定が可能です。例えば、Field Facetsではツイートの地域毎にフィルタを行うとか、Range Facetsは件数、Date Facetsは、Facets Orderはは左側に表示されるファセットの順番の変更を行えます。

demoビデオに従い、

    • Field FacetsはFiledにuser_location、ラベルはlocation
    • Range FacetsはFieldにuser_statuses_count、ラベルはtweets
    • Date FacetsはFieldにcreated_at、ラベルはwhen
    • Facets Orderは、location,tweets,whenの順序

に設定します。

Sorting

表示順序です。今回は指定していません。

Highlighting

クエリしたキーワードをハイライトさせる機能です。今回はtextにチェックしました。

検索結果

検索結果を見てみましょう。右上のSearch Pageを押して検索結果に戻ります。
Search Result

見事にツイートっぽいイメージなどが表示されるようになりました!
左側のメニューにもLOCATIONやTWEETS、WHENなどが表示されており、クイックフィルタリングすることができます(*1)

皆さんも自由にカスタマイズしてみて下さい!

*1: 現在日本語でのフィルタ、検索がうまく通らないようですが、CDH4.4で対応予定です。Thanks>@daisukebe_さん

Hadoopを10分で試す(7)再びHueからHiveとImpalaを使う

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

このブログシリーズの最後の記事は Cloudera Impalaです。

Cloudera Impala はSQLライクな言語を使用して、Hadoop(HDFS)やHBase上のデータをクエリすることが出来ます。Apache Hiveのデータとメタストアを共通で使用できるという特徴があります。蓄積したデータを加工せず、そのまま利用できるのはメリットが高いですね。
Impalaは低レイテンシな結果を得ることを目的に設計されているので、データの解析やインタラクティブな処理に適しています。

今回の仮想化環境は1ノードと寂しいですが、現実には複数ノード、かつ潤沢にメモリを積んだ環境で実行すべきです。MapReduceとは異なり中間データをディスクに書き込まないため、メモリを多く搭載することが良いパフォーマンスに繋がります。
(続きを読む)

Hadoopを10分で試す(6)HueからSolrを使う

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

それでは、Clouderaのブログに従い、Solrを使ってみましょう。

MapReduceによるバッチインデックス

まずは、ターミナルから疑似ツイートをセットアップします。この仮想マシンにはサンプルツイートを生成するスクリプトが用意されています。以下のコマンドを実行しましょう。

$ ~/datasets/batch-tweets.sh
(続きを読む)

Hadoopを10分で試す(5)Cloudera Quickstart VM 新版リリースと日本語化

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

昨日投稿したように、絶妙なタイミングで Cloudera Quickstart VM (CDH4.3、Cloduera Manager 4.6、Cloudera Impala、Cloudera Search全部入り)がリリースされました。

今回は新しい仮想マシンを起動して、日本語化の手順が変わっているのかどうかを確認します。

Quickstart VMのダウンロードと起動

仮想マシンイメージは https://ccp.cloudera.com/display/SUPPORT/Cloudera+QuickStart+VM からダウンロードします。この手順は前回とは変わっていません。ダウンロードしたら解凍して実行します。

以下、今まで同様にスクリーンショットを中心に紹介します。(全ての画像はクリックすると拡大します)
(続きを読む)

Hadoopを10分で試す(番外編)

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

絶妙なタイミングで、本日ClouderaのブログにQuick VMの記事が公開されました。
http://blog.cloudera.com/blog/2013/06/quickstart-vm-now-with-real-time-big-data/

#全然知らなかった。おまけにVMも新しくなっていた、、、昨日一昨日のバージョンアップの苦労が、、(といっても10分試しただけw)

再度ブログで書こうか迷い中ですが、今回更新された仮想マシンイメージはCloudera Searchが使えるみたいなので、まだダウンロードしていない方はこちらを使った方が良いかと思いますです。

(追記)今日はこの仮想マシンイメージのダウンロードが終わったら家に帰ろう。
日本語化の手順はほとんど変わらないと思いますが、ブログの更新は明日以降の予定です(余力があれば、、)

Hadoopを10分で試す(4)CDH4.3にバージョンアップ

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

本日時点で提供されているCloudera quickstart demo VMは若干古いバージョン(CDH4.2)が提供されています。
最終回(かもしれない)今回は、ノードを最新バージョン(CDH4.3)にしてみましょう

手順はこちらのドキュメント(英語)を参照のこと。

注:Cloudera ManagerではParcelという新しいソフトウェアの配信の仕組みもサポートしています。(Clouderaのブログ:英語)。しかしこの仮想マシンでは利用していないため、従来同様にyumを使用して、RPMパッケージを更新します。
(続きを読む)

Hadoopを10分で試す(3)HueからHiveとImpalaのクエリを実行する

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

前回のブログでCloudera Managerを日本語化しましたが、同時にHue (http://gethue.com) というHadoopのGUIツールも日本語化されています。

Hueはオープンソースで提供されている、Hadoop用のGUIツールです。GUIからHive、Pig、Impala、HDFS、MapReduce、Oozie、、などの機能を使用することができる、エンジニア以外の方にも使い易いツールです。(ロゴが可愛いw)
Hue logo

今回はHueのいくつかの機能についてはスクリーンショットを、続いてHueからHiveとImpalaを使ったサンプルクエリを実行してみます。
(全ての画像はクリックすると拡大します)
(続きを読む)

Hadoopを10分で試す(2)Clouderaの仮想マシンを日本語化

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

前回はCloudera quickstart demo VMを起動させるところまで試しました。今回は日本語化を行います。

日本語環境での表示
cm4 japanese

日本語パッケージをインストール

残念ながら、このデモ環境には日本語フォントなどがインストールされていません。yumでインストールしようとしても、下記のようにエラーになってします。
(続きを読む)

Hadoopを10分で試す(1)Clouderaの仮想マシンをインストール

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

Clouderaでは、Hadoopを簡単に試してみるための仮想マシンイメージ(Cloudera Quickstart demo VM)を提供しています。

が、日本語ドキュメントが少ない(これはあまり問題ないですが)&日本語化を試してみたい方のための情報が少ないので、まとめます。ご参考になれば幸いです。

仮想マシンイメージのダウンロード

仮想マシンの実行には以下の環境が必要です。64bit環境が必要なのは、Cloudera ManagerとCloudera Impalaが64bitでしか動作しないためです。

  • 64bitの仮想環境
  • 仮想マシンに割り当てるメモリ:4GB以上
  • 仮想マシンのディスク領域:2GB以上

(続きを読む)