祝! Apache Hadoop 2.2.0 GAリリース

Apache Hadoop 2.2.0 GAがついに公開!

Hadoop2.xといいながらも、今まで2.0.xはアルファ版、2.1.xがベータ版という不思議なリリースが続いていましたが、ついに2.2.0でGAとなりました。

http://hadoop.apache.org/releases.html#15+October%2C+2013%3A+Release+2.2.0+available

全く貢献できていませんが、公開おめでとうございます!

このリリースによってYARNの利用が促進されるのか、あるいはWindowsユーザーが増えるのかどうかはわかりませんが、より安定してエンタープライズ環境で広範囲に利用されることを願っています。

HDFSの拡張:スナップショットとNFSv3対応

そういえばHDFSはスナップショットに対応し、さらに、ついにNFSv3でアクセスできるようになります。一部の方々にとっては朗報しれません。
#NFSはスケーラブルではないので、FlumeやSqoopの方が使い勝手は良いかもしれないですが、、、

 

2013/10/16更新:目玉機能を書けと言われたので追記します。リリースノートから興味深いものを抜粋。

YARN

YARN(Yet Another Resource Negotiator)、MapReduce version2 (MRv2)やApache Giraph、Mahoutなどにも利用される分散処理の実行基盤。いくつか不具合が残っていましたが、このリリースで修正されています。MRv2でフェアスケジューラも利用できるようになったようですね。

Resource Managerの高可用性(YARN-149)はまだ対応できていない模様。

HDFSはかなり機能追加されています。多いので目についたものだけ。

HDFS SnapShot

スナップショットは任意の時点における、読み取り専用のHDFSのコピーです。元々HDFSはライトワンスのため更新できない(追記はできる)のですが、任意の時点でのバックアップを取りたい場合、ディザスタリカバリに役立つことが期待されています。スナップショットは実際のブロックのコピーを取るわけではないので、かかる時間もボリュームのサイズに依存せず、O(1)となります。既にスナップショットのページも用意されているので、興味があるかたはご覧になってはいかがでしょう。

NFSv3対応

JIRAのチケットが分散していますが、HADOOP-9515「Add general interface for NFS and Mount」とHDFS-4750「Support NFSv3 interface to HDFS」、HDFS-4762「Provide HDFS based NFSv3 and Mountd implementation」あたりのチケットをみると良さそうです。

まだ追えていないんですが、デザインドキュメントを見ると、HttpFsのように、NFSゲートウェイを置き、クライアントからアクセスするモデルのようです。

NFSv3 design

これを見ると、単一サーバーはスケールアウトしないんじゃないの?とか、単一障害点では?いう方もいらっしゃるでしょう。細かいことは調べていないのでわかりませんが、HDFS-4750をフォローすると良さそうです。今回は最初のリリースですし、(そもそもNFS必要な人ってそんなに多い?)きっとOSSのチカラで良いものになっていくと思います。

バランサーが新しいトポロジー形式に対応

HDFS-3495「Update Balancer to support new NetworkTopology with NodeGroup」を見ると、NodeGroupでのネットワークトポロジーをサポートするようにリバランス処理が変更されたようです。(良く読んでいない)

データノードでのブロックボリュームデバイスの選択ポリシー

以前Twitterでも書きましたが、先行してCDH4.3に含まれていたのがこれです。データノードに複数のディスクがある場合、ディスク間でのバランシングは行っていませんでした。(データノード間のリバランスは従来より可能。これは同一データノード内に複数のディスクがある場合のバランシングです)。このHDFS−1804はディスクボリューム間でのリバランスポリシーの機能です。

NameNodeのリカバリーツール

HDFS-3004もCDH4では利用できていましたが、正式に(?)利用できるようになった模様です。日本語のブログ:HDFSにおける、NameNodeのリカバリ・ツールについて

他にもいろいろありますが、この辺で。。

2013/10/17 0:00更新

書き忘れていましたが、このバージョンでWindowsがサポートされましたね。運用ノウハウやチューニング、Windowsに特化した問題など、課題はいくつもありそうですが、選択肢が増えることは喜ばしいです。

Pocket

2 thoughts on “祝! Apache Hadoop 2.2.0 GAリリース

  1. Pingback: Apache Hadoop 2.2.0 GA 〜 HDFSに追加された機能の補足〜 | Tech Blog

  2. Pingback: 祝!HBase 0.96 リリース | Tech Blog

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)