HDFSの再バランス

HDFSには、DataNode間でディスク使用量の再バランスを行う balaner 機能があります。また、Hadoop3.xで導入される予定の、DataNode内のディスク間のリバランス機能(Disk Balancer)もあります。(この機能はCDH5.8.2以降でも利用できます)

今回はノード間の再バランスについて、次回は新しいディスク間のバランス機能について紹介する予定です。

(続きを読む)

HBase 1.2で導入されたSimpleRegionNormalizerを試してみる

RegionNormalizer

Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016」 の@d1ce_氏による「HBase 1.2で導入されたSimpleRegionNormalizerについて」で紹介されていたRegionNormalizerの機能を試してみました。

HBaseはテーブルを「リージョン」という範囲に分けて管理します。例えば以下の図では4つのリージョンに分かれていますが、図Aはほぼ均等になっているのに対し、図Bは不均等になっています。

(続きを読む)

Sparkで取得したログを別のマシンのWeb UIで見る

#以前qiitaに投稿した記事を一部更新して再投稿しています

Apache SparkのWebUIはアプリケーションの開発時のデバッグにとても役立ちます。

sparkhistory7.png

しかし、本番運用に入ってしまうと、簡単にはWeb UIにアクセスできなかったり、問題が発生してから時間が過ぎてしまい見たかった情報が流れてしまうこともあります。

(続きを読む)

(祝)Hadoop 3.0.0-alpha1リリース

本日、Hadoop 3.0.0-alpha1がリリースされました!

今年はHadoop10周年です。過去のリリース履歴をいくつかピックアップしてみました。(赤字は対応しているCDHのバージョン)

  • 0.1.0 – 2006/4/2
  • 0.18 – 2008/8/22  (CDH1)
  • 0.20.1 – 2009/9/14 (CDH2)
  • 0.20.2 – 2010/2/26  (CDH3)
  • 0.23.0 – 2011/11/11
  • 1.0.0 – 2011/12/27
  • 2.0.0-alpha – 2012/5/23 (CDH4)
  • 2.1.0-beta – 2013/8/25
  • 2.2.0 – 2013/10/15
  • 2.3.0 – 2014/2/20  (CDH5)
  • 3.0.0-alpha – 2016/9/3

#さて、6はいつ頃公開されるんでしょうか…

日本では11月8日に恒例のCloudera World Tokyo 2016が、10月にはHadoop Summit Tokyo が開催されます。ますます盛り上がって欲しいですね 🙂