Goodbye 2013, Hello 2014

あと数時間で2013年も終わりです。このブログが象の普及に少しでも役立てば幸いです。
さて、来年の干支は午。馬といえばHBase(!?)。
馬は扱いにくいと言われますが、正しくチューニングしてしっかり監視をしておくことが安全な運用に繋がります。公開されている事例は少ないですが、日本での利用もかなり増えています。Apache HBase、来年は干支にちなんでブレイクしてほしいですね。

elephants(それでも写真は象)

ということで、来年もよろしくお願いします。
#そしてまだ仕事は終わらない…

Cloudera Impalaのアーキテクチャ

(本ブログは若干古くなっているので、Impala情報ページをご覧下さい。比較的新しい情報をまとめています)

一人アドベントカレンダー25日目、最終日です。
2013_12_14_18_ 3
最終日はCloudera Impala(以下Impala)について。Impalaは分散クエリエンジンです。最近EMRでも利用できるようになりました。
Hiveとは何が違うのか、なぜHiveを高速化しなかったのかというような意見もあるようですが、その答えはClouderaの創業者でもあるMike Olsonが今週公開したブログ(Impala v Hive)に詳しく書かれています。かなり興味深い内容ですが、今のところ英語のみです。きっと日本語の記事もいずれ読めるようになるはず。。。
さて、最終日はCloudera Impalaのアーキテクチャについて書いてみます。引用している資料はSlideshareでClouderaが公開しているものです。リンクは一番下の参考資料をご覧下さい。 “Cloudera Impalaのアーキテクチャ” の続きを読む

Accumuloをインストールしてみる

23日目です
先週の金曜日に、CDH4.3でAccumuloが利用できるというブログが公開されました。Apache AccumuloはApache HBaseと同様に、GoogleのBigTableの論文を参考にして開発されています。Accumuloは当初NSAが開発してOSS化されているもので、HBaseよりもセキュリティの面で優れている他に、Secondary Indexが利用できる点は興味深いです。
HBaseとAccumuloとの違いは、2年前のスライドこのドキュメントが参考になるかもしれません(後者の細かいところは見ていませんが、)。今回手元のCloudera Demo VMに環境を構築しましたが、かなり難航しました。 “Accumuloをインストールしてみる” の続きを読む

Hadoopにlzoの環境構築(3)

20日目です
先日はJavaのMapReduceを使って、lzoで圧縮されたファイルを正しく処理できるかどうかの実験を行いました。今回はHiveやPig、Impalaを使って実験します。LzoよりもRCFileやParquetなどを使って圧縮されたファイルのスプリットをやるべきかもしれませんが、本日は余力がないので簡単に。 “Hadoopにlzoの環境構築(3)” の続きを読む

HDFS上のファイルに追記する

18日目です
HDFSは当初Write Onceなファイルシステムでした。これは設計思想によるものです。Apache HDFSのドキュメントから引用します。

HDFS applications need a write-once-read-many access model for files. A file once created, written, and closed need not be changed. This assumption simplifies data coherency issues and enables high throughput data access. A Map/Reduce application or a web crawler application fits perfectly with this model. There is a plan to support appending-writes to files in the future.

ここには将来的に追記をサポート云々と書いてありますが、追記の機能はhadoop 0.20-appendブランチで開発が進められ、既にメインラインに取り込まれています。 “HDFS上のファイルに追記する” の続きを読む

Hadoopを10分で試す(番外編) Cloudera Manager 5 ベータ環境を簡単に試す(後編)

**この記事の内容は若干古くなっています。まとめページもご覧下さい**
17日目です
昨日はCloudera Demo VM仮想マシンをCloudera Manager 5 betaの環境にアップグレードしましたが、続いてその中で動作しているHadoop(CDH)をアップグレードします。 “Hadoopを10分で試す(番外編) Cloudera Manager 5 ベータ環境を簡単に試す(後編)” の続きを読む

Hadoopを10分で試す(番外編) Cloudera Manager 5 ベータ環境を簡単に試す(前編)

**この記事の内容は若干古くなっています。まとめページもご覧下さい**
16日目です。(土日は基本的に休み)
以前にCloudera Demo VMを使った「Hadoopを10分で試す」というブログシリーズを書きましたが、今回はその環境をCDH5 /Cloudera Manager 5にしてみるという企画です。
Cloudera社は、Cloudera のディストリビューションであるCDHと管理ツールであるCloudera Manager を簡単に評価するための仮想マシンイメージを用意しています(ダウンロード)。しかし、現時点でCDH5 beta1 / Cloudera Manager 5 beta用のイメージは提供されていません。いち早く試してみたいのがエンジニアの性。でも環境を用意するのが面倒だなぁという方のために、Demo VMの仮想マシンをCDH5/Cloudera Manager 5(共にベータ環境)にアップデートする方法を紹介します。 “Hadoopを10分で試す(番外編) Cloudera Manager 5 ベータ環境を簡単に試す(前編)” の続きを読む

Cloudera ImpalaとCatalog Serviceの話

14日目です
「Announcing Support for Impala with Amazon Elastic MapReduce」
https://twitter.com/mikeolson/status/411544952145854464
でも紹介されているように、Amazon EMRでCloudera Impala(以下Impala)が利用できるようになったようです!(他のサービスやアプライアンスにもImapalaを利用しているところがいくつかあるようです)
また、Hadoopアドベントカレンダー2013@brfrn169さんの12日目のブログもImpalaの話題です「Amebaのログ解析基盤にCloudera ImpalaとPrestoを導入しました」。興味深い内容が盛りだくさんですね。
さて、本日は最近リリースされたImpala 1.2.Xで利用できるようになった Catalog Service についての話題です(前にちらっと触れましたが、、)。昨日メーリングリストでわかりやすくまとまっていたので、日本語でまとめてみました。 “Cloudera ImpalaとCatalog Serviceの話” の続きを読む