CERNで実施したベンチマークが公開されています

CERNが公開した、

「Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較」

を日本語化して公開しました。

Apache Avro, Apache Parquet, Apache HBase, Apache Kuduそれぞれの特性が興味深いです。取り込み重視なのか分析重視なのか、長期保存目的か、はたまた折衷なのかによって何を選択するべきかの参考になります。

これは必読です!

 

 

HBase 1.2で導入されたSimpleRegionNormalizerを試してみる

RegionNormalizer

Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016」 の@d1ce_氏による「HBase 1.2で導入されたSimpleRegionNormalizerについて」で紹介されていたRegionNormalizerの機能を試してみました。

HBaseはテーブルを「リージョン」という範囲に分けて管理します。例えば以下の図では4つのリージョンに分かれていますが、図Aはほぼ均等になっているのに対し、図Bは不均等になっています。

(続きを読む)

HBase関連の話題

先月 HBaseCon 2015 が米国で開催され、本日その資料が公開されました。http://hbasecon.com/archive.html

英語ですが、スライドとビデオの両方が公開されている(ものが多い)ので、興味のある方は参考になるんじゃないかと思います。

また、日本でも2015/6/25 に HBase Meetup Tokyo Summer 2015 が開催されます。http://www.zusaar.com/event/14057003  (続きを読む)

Apache Phoenixを試す(補足)

昨晩Apache Phoenixを試してみました。手元の環境ではいくらか問題が生じているものの、SQLでアクセスできるのは強力ですね。一方、HBaseには実際にどのようにデータが格納されているのかも気になります。hbase shellからはどのように見えるのか、備忘録がてら貼っておきます。

(続きを読む)