HDFS イレイジャーコーディングの性能について

Hadoop 3.x でサポートされたHDFS Erasure Coding (HDFS-EC)ですが、HDFSに利用するストレージの容量を節約することができるため、大量データを持っている方には魅力的です。

一方、原則的に複数ラックが必要とか、障害時の復旧にかかるコストが増える、HDFSの複製に比べるとローカリティが低くなるといったデメリットもあります。

今日公開されたブログでは、従来のレプリケーションを使用した場合、HDFS-ECの場合、ISA-Lを使う場合、小さなファイルの場合、障害復旧の時間など、様々な観点でのベンチマーク結果が掲載されています。

HDFS Erasure Coding in Production - Cloudera Blog
HDFS erasure coding (EC), a major feature delivered in Apache Hadoop 3.0, is also available in CDH 6.1 for use in certain applications like Spark, Hive, and Map...

近々日本語化したいと思いますが、図も多いので興味がある方は是非ごらんください。

コメント