Hadoop3.0の新機能!DataNodeディスク間バランサーを試す

DataNodeディスク間バランサー

昨日紹介したHDFSの再バランスは、DataNode間でディスク使用量を平準化するための機能でした。一方で、DataNodeが複数のディスクを持っている場合、それぞれのディスクの使用量のバランスが崩れてしまうこともあります。一例として、データの削除が激しく行われたり、もっとわかりやすい例は新しいディスクを増設した場合です。このように偏りが生じるとI/Oが特定のディスクに偏ってしまい、効率が良くありません。

(続きを読む)

HDFSの再バランス

HDFSには、DataNode間でディスク使用量の再バランスを行う balaner 機能があります。また、Hadoop3.xで導入される予定の、DataNode内のディスク間のリバランス機能(Disk Balancer)もあります。(この機能はCDH5.8.2以降でも利用できます)

今回はノード間の再バランスについて、次回は新しいディスク間のバランス機能について紹介する予定です。

(続きを読む)

HBase 1.2で導入されたSimpleRegionNormalizerを試してみる

RegionNormalizer

Distributed computing (Apache Hadoop, Spark, …) Advent Calendar 2016」 の@d1ce_氏による「HBase 1.2で導入されたSimpleRegionNormalizerについて」で紹介されていたRegionNormalizerの機能を試してみました。

HBaseはテーブルを「リージョン」という範囲に分けて管理します。例えば以下の図では4つのリージョンに分かれていますが、図Aはほぼ均等になっているのに対し、図Bは不均等になっています。

(続きを読む)

Sparkで取得したログを別のマシンのWeb UIで見る

#以前qiitaに投稿した記事を一部更新して再投稿しています

Apache SparkのWebUIはアプリケーションの開発時のデバッグにとても役立ちます。

sparkhistory7.png

しかし、本番運用に入ってしまうと、簡単にはWeb UIにアクセスできなかったり、問題が発生してから時間が過ぎてしまい見たかった情報が流れてしまうこともあります。

(続きを読む)