Goodbye 2013, Hello 2014

あと数時間で2013年も終わりです。このブログが象の普及に少しでも役立てば幸いです。

さて、来年の干支は午。馬といえばHBase(!?)。

馬は扱いにくいと言われますが、正しくチューニングしてしっかり監視をしておくことが安全な運用に繋がります。公開されている事例は少ないですが、日本での利用もかなり増えています。Apache HBase、来年は干支にちなんでブレイクしてほしいですね。

elephants(それでも写真は象)

ということで、来年もよろしくお願いします。

#そしてまだ仕事は終わらない…

Cloudera Impalaのアーキテクチャ

(本ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています)

一人アドベントカレンダー25日目、最終日です。

2013_12_14_18_ 3

最終日はCloudera Impala(以下Impala)について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。

Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ(Impala v Hive)に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日本語の記事もいずれ読めるようになるはず。。。

さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです。リンクは一番下の参考資料をご覧下さい。 (続きを読む)

HBaseのMTTR(平均修復時間)の改善

24日目です

Apache HBaseは、馬本(オライリーのHBase)が出版された頃に比べてさまざまな改善がされています。先日 HBaseのPMCでもあるJonathan HeishがHadoop World+Strata Conference 2013やCloudera World Tokyo 2013でも講演(pdf)していましたが、最新の ver 0.96 では、パフォーマンス、機能、信頼性、ユーザビリティの観点でも進化を遂げています。そのうちの一つはコンパクションの改善で、 @shiumachi 氏がHadoop Advent Calendar 2013ブログを公開しています。

今回はMTTR (Mean Time to Recovery:平均修復時間)の改善について、大雑把にまとめてみました。Jonathan の資料を参考にしているので、興味がある方は原文[1]をご覧下さい。(シャンパンをしたたま飲んで書いているので、怪しいところが、、、) (続きを読む)

Accumuloをインストールしてみる

23日目です

先週の金曜日に、CDH4.3でAccumuloが利用できるというブログが公開されました。Apache AccumuloはApache HBaseと同様に、GoogleのBigTableの論文を参考にして開発されています。Accumuloは当初NSAが開発してOSS化されているもので、HBaseよりもセキュリティの面で優れている他に、Secondary Indexが利用できる点は興味深いです。
HBaseとAccumuloとの違いは、2年前のスライドこのドキュメントが参考になるかもしれません(後者の細かいところは見ていませんが、)。今回手元のCloudera Demo VMに環境を構築しましたが、かなり難航しました。 (続きを読む)

Hadoopにlzoの環境構築(3)

20日目です

先日はJavaのMapReduceを使って、lzoで圧縮されたファイルを正しく処理できるかどうかの実験を行いました。今回はHiveやPig、Impalaを使って実験します。LzoよりもRCFileやParquetなどを使って圧縮されたファイルのスプリットをやるべきかもしれませんが、本日は余力がないので簡単に。 (続きを読む)

YARNのスケジューラアルゴリズム

19日目です

先日MapReduce v1のスケジューラアルゴリズムというブログを書きました。YARN / MRv2 が推奨になりつつなる今、YARNでのスケジューラアルゴリズムも確認しておいた方が良さそうです。
※CDH4.3での確認です。CDH5b1の環境で検証できたら後ほど更新します。 (続きを読む)

HDFS上のファイルに追記する

18日目です

HDFSは当初Write Onceなファイルシステムでした。これは設計思想によるものです。Apache HDFSのドキュメントから引用します。

HDFS applications need a write-once-read-many access model for files. A file once created, written, and closed need not be changed. This assumption simplifies data coherency issues and enables high throughput data access. A Map/Reduce application or a web crawler application fits perfectly with this model. There is a plan to support appending-writes to files in the future.

ここには将来的に追記をサポート云々と書いてありますが、追記の機能はhadoop 0.20-appendブランチで開発が進められ、既にメインラインに取り込まれています。 (続きを読む)

Hadoopを10分で試す(番外編) Cloudera Manager 5 ベータ環境を簡単に試す(後編)

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

17日目です

昨日はCloudera Demo VM仮想マシンをCloudera Manager 5 betaの環境にアップグレードしましたが、続いてその中で動作しているHadoop(CDH)をアップグレードします。 (続きを読む)

Hadoopを10分で試す(番外編) Cloudera Manager 5 ベータ環境を簡単に試す(前編)

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

16日目です。(土日は基本的に休み)

以前にCloudera Demo VMを使った「Hadoopを10分で試す」というブログシリーズを書きましたが、今回はその環境をCDH5 /Cloudera Manager 5にしてみるという企画です。

Cloudera社は、Cloudera のディストリビューションであるCDHと管理ツールであるCloudera Manager を簡単に評価するための仮想マシンイメージを用意しています(ダウンロード)。しかし、現時点でCDH5 beta1 / Cloudera Manager 5 beta用のイメージは提供されていません。いち早く試してみたいのがエンジニアの性。でも環境を用意するのが面倒だなぁという方のために、Demo VMの仮想マシンをCDH5/Cloudera Manager 5(共にベータ環境)にアップデートする方法を紹介します。 (続きを読む)

Cloudera ImpalaとCatalog Serviceの話

14日目です

「Announcing Support for Impala with Amazon Elastic MapReduce」
https://twitter.com/mikeolson/status/411544952145854464

でも紹介されているように、Amazon EMRでCloudera Impala(以下Impala)が利用できるようになったようです!(他のサービスやアプライアンスにもImapalaを利用しているところがいくつかあるようです)

また、Hadoopアドベントカレンダー2013@brfrn169さんの12日目のブログもImpalaの話題です「Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました」。興味深い内容が盛りだくさんですね。

さて、本日は最近リリースされたImpala 1.2.Xで利用できるようになった Catalog Service についての話題です(前にちらっと触れましたが、、)。昨日メーリングリストでわかりやすくまとまっていたので、日本語でまとめてみました。 (続きを読む)