HDFSが変わる?HDFSのイレイジャーコーディング対応

Hadoopの分散ファイルシステムであるHDFSはビッグデータ用のストレージ用に広く利用され、ビッグデータにおけるファイルシステムのデファクトスタンダードになっていると言っても過言ではありません。最近では暗号化の対応アクセス制御(ACL)NFSv3への対応など、セキュリティの強化や利便性の向上なども進化しています。

このように進化を続けているHDFSですが、現在開発が進んでいる機能のひとつにイレージャーコーディングへの対応というものがあります。

HDFS-7285:Erasure Coding Support inside HDFS

イレージャーコーディングとはソフトウェアエンジニアには耳慣れない言葉ですが、興味深かったのでまとめてみました。 (続きを読む)

高可用性でフェデレーションなHDFS

HDFS-HA with federation

高可用性HDFS(High Availability HDFS)の情報はたくさん公開されていますが、フェデレーションと組み合わせた設定についての情報は非常に少ないようです。
手元の環境で構築したので、設定をメモ代わりに残しておきます。

(続きを読む)

HDFSの新しい機能を確認(2) CDH5.0 GAとヘテロジニアス構成

昨日、2014/4/2、CDH 5とCloudera Manager 5がリリースされました。手元の環境をアップデートしたので、いくつかの新しい機能の確認を続けます。

なお前回同様に、CDH5 beta2からのアップデートの際にはHDFSのメタデータの更新が必要です(ついでに言うと、Hiveのメタストアのアップデートも必要でした)。ご注意下さい。 (続きを読む)

HDFSの新しい機能を確認する(1)(CDH5.0 beta2)

CDH5 beta2のHDFS

CDH5 beta2が公開されてからしばらく経ちました。GAまでは(おそらく)もう少しです。手元の検証環境をアップデートしていなかったので、CDH5 beta1->beta2にアップデートして、いくつか変更点を確認してみます。

CDH5 beta2へのアップデート

今回の環境は、Cloudera ManagerではなくRPM(yum)でセットアップしていたので、コマンドラインからyumで更新します。 (続きを読む)

HDFS上のファイルに追記する

18日目です

HDFSは当初Write Onceなファイルシステムでした。これは設計思想によるものです。Apache HDFSのドキュメントから引用します。

HDFS applications need a write-once-read-many access model for files. A file once created, written, and closed need not be changed. This assumption simplifies data coherency issues and enables high throughput data access. A Map/Reduce application or a web crawler application fits perfectly with this model. There is a plan to support appending-writes to files in the future.

ここには将来的に追記をサポート云々と書いてありますが、追記の機能はhadoop 0.20-appendブランチで開発が進められ、既にメインラインに取り込まれています。 (続きを読む)

HDFSのパフォーマンス改善(アドバイザリーキャッシュの設定)

10日目です

以前もHDFSのパフォーマンス改善についてのブログ(キャッシングの導入mmapを使ったゼロコピー)を書きましたが、本日たまたま見つけた(かつ、最新版には取り込まれていた)、ファイルベースでHDFSアドバイザリーキャッシュを設定できる機能(HDFS-4817)を紹介します。 (続きを読む)

HDFSのヘテロジニアス(非均一)ストレージ構成

9日目です(土日に書くのは休むことにしました)

ご存知の通り、HDFSはマスターとスレーブ群から構成されます。スレーブノードを大量に用意することで、膨大なデータを蓄積することができます。

現状のHDFSでは、個々のデータノードが持っているストレージの種類や数、個々のストレージの容量などを、ネームノードが知る手段がありません。今後データノードでは、HDDやSSDなどのデバイスを組み合わせて利用したり、ノード毎に異なるハードウェア構成を取ることが増える可能性があります。 (続きを読む)

CDH5 ベータ1 のNFSv3ゲートウェイを試してみました

HDFSのNFSv3 Gateway機能を試してみる

以前の記事にも書きましたが、Hadoop 2.2.0の新機能の一つに「NFSv3に対応」という点があります。「CDH5 beta1を速攻で試す!」でCDH5b1のパッケージをみたように、NFSv3 GatewayはCDH5 b1にも含まれています。制約は多いようですが、モノは試しに使ってみましょう。 (続きを読む)

HDFSのヘテロジニアス対応

HDFSとヘテロジニアスな構成

一般的に、Hadoopは同一構成のサーバを大量に並べる方が、運用が簡単です。非均一な構成は、特に設定ファイルの管理、チューニングが厄介です。

そんな中、HDFS-2832で「Enable support for heterogeneous storages in HDFS」というチケットを見つけました。これは、データノードを「単一のストレージ」として扱うのではなく、データノードを「ストレージのコレクション」として扱うところです。
(続きを読む)