CERNで実施したベンチマークが公開されています

CERNが公開した、

「Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較」

を日本語化して公開しました。

Apache Avro, Apache Parquet, Apache HBase, Apache Kuduそれぞれの特性が興味深いです。取り込み重視なのか分析重視なのか、長期保存目的か、はたまた折衷なのかによって何を選択するべきかの参考になります。

これは必読です!

 

 

マルチテナント環境でのHBaseの改善

Hadoop関連(全部俺) Advent Calendar 2014:10日目の記事です

「HBase徹底入門」発売決定!

O’ReillyのHBase(馬本)も第2版に向けて執筆が進んでいるようですが、日本でも、翔泳社から「HBase徹底入門」が発売されるとのビッグニュースがありました。(Amazonで予約が開始されたようです。発売日は2015/1/28)。楽しみですね。発売されたらじっくり拝読して勉強します!

マルチテナントでのHBase

さて、昨日のClouderaのブログに「New in CDH 5.2: Improvements for Running Multiple Workloads on a Single HBase Cluster」という記事が掲載されました。HBaseは現在 1.0.0版に向けて作業が進んでいます。(最新版は2014/12/10時点で、0.98.8と0.99.2) (続きを読む)

HBase勉強会に参加しました

HBase勉強会 (Meetup)

Apache HBaseのPMC (Project Management Committees: Committerを束ねるような立場のような人)でもあるClouderaのエンジニア、Jonathan Heish氏がCloudera World Tokyo 2013のために来日しており、せっかくの機会なのでHBase勉強会が催されました。多分、HBase界では5本の指に入るような凄い人です。

今回は通訳なし、HBaseをそれなりに知っているという前提条件での実施のため、かなり突っ込んだ話でした。 (続きを読む)

Hue 2.5でHBaseアプリを動かす(成功編)

昨日失敗したHue2.5、ようやく成功したので手順を書いておきます。

Hueのダウンロード

hueのソースコードは http://gethue.com からダウンロードできます。

最新版を使うため、githubにあるソースをクローンしました。昨日ダウンロードしたソースとdiffを取ってみましたが、かなり差分があるようでした。

作業ディレクトリに移動して、git cloneします。 (続きを読む)

HBase 0.94 での ResionServer Queue dump 機能

CDH4.2ではHBaseのバージョンが0.92.1->0.94.2へと変更になっています。主な変更点は
https://ccp.cloudera.com/display/CDH4DOC/New+Features+in+CDH4#NewFeaturesinCDH4-HBase420
を参照して下さい。今回はちょっとした機能についてご紹介します。

Resion Server Queue dump

リージョンサーバではコンパクションやスプリットが発生し、パフォーマンスに影響を及ぼします。
このときの「キュー」をダンブする機能が HBASE-2730 で実装されました。CDH4.2にも含まれています。

有効化するには hbase-site.xml に hbase.regionserver.servlet.show.queuedump
true
のように記述し、RegionServerを再起動します。

確認はブラウザから、
http://:60030/dump
にアクセスして下さい。一番下にキューの状態が表示されます。

RS Queue:
===========================================================
Compaction/Split Queue summary: compaction_queue=(0:0), split_queue=0
Compaction/Split Queue dump:
LargeCompation Queue:

SmallCompation Queue:

Split Queue:

Flush Queue summary: flush_queue=0
Flush Queue Queue dump:
Flush Queue:

このようなデバッグのための機能が強化されるのは嬉しいですね。

(参考)
手元の環境では全てゼロ、と分かりにくいので、JIRAに公開されていたスクリーンショットを貼っておきます
HBase dump queue
オリジナル画像はこちら