hdfs

hdfs

HDFSのスモールファイルの問題のブログ翻訳

HDFSに小さなファイルを溜めるといくつかの問題が生じます。例えば、NameNodeのメモリを大量に消費したり、あるいは分散処理の際のパフォーマンスが劣化します。 この問題の原因、予防、対処法が書かれていたブログ記事の内容がかなり良...
hdfs

HDFS イレイジャーコーディングの性能について

Hadoop 3.x でサポートされたHDFS Erasure Coding (HDFS-EC)ですが、HDFSに利用するストレージの容量を節約することができるため、大量データを持っている方には魅力的です。 一方、原則的に複数ラック...
hdfs

HDFSのワーカーのタイムアウト時間 10分30秒

備忘録がてら貼っておく。 NameNodeとDataNodeのタイムアウト時間 HDFSでは、DataNodeが定期的にNameNodeにハートビート通信を行なっています。DataNodeからのハートビートが一定時間途絶えると、Name...
CDH6

Cloudera Enterprise 6 beta で Erasure Coding を試してみる

Hadoop 3.0 で導入された HDFS  Erasure Coding を Cloudera Enterprise 6.0 beta の環境で試してみました。 HDFSのErasure Coding は、HDFSのブロックの複製とは...
hadoop

HDFSの新しい機能3つ

HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。 その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたCloude...
CDH5

Hadoop3.0の新機能!DataNodeディスク間バランサーを試す

DataNodeディスク間バランサー 昨日紹介したHDFSの再バランスは、DataNode間でディスク使用量を平準化するための機能でした。一方で、DataNodeが複数のディスクを持っている場合、それぞれのディスクの使用量のバランスが崩れて...
CDH5

HDFSの再バランス

HDFSには、DataNode間でディスク使用量の再バランスを行う balaner 機能があります。また、Hadoop3.xで導入される予定の、DataNode内のディスク間のリバランス機能(Disk Balancer)もあります。(この機...
CDH5

hdfs dfs で利用できるサブコマンド(3)

hdfs dfs コマンドで利用できるサブコマンドの一覧、その3です。 表のレイアウトがおかしいので近いうちに直します。
CDH5

hdfs dfs で利用できるサブコマンド(2)

hdfs dfs コマンドで利用できるサブコマンドの一覧、その2です。
CDH5

hdfs dfs で利用できるサブコマンド(1)

hdfs dfs コマンドで利用できるサブコマンドはHadoopのバージョンの向上とともに増えています。使ったことがないコマンドもあるので、実際にコマンドを実行して結果を見てみました。 コマンドが多いので3回に分けて掲載します。