JobTracker HA

本日 CDH4.2 がリリースされました(リリースノート)が、その中の目玉機能としてあげられるのが
JobTracker HA
でしょう。

従来 Hadoop には、下記の SPOF (単一障害点)があると言われていました。
1. NameNode
2. JobTracker

1.に関しては、昨年NameNode HAが公開され解決していたのですが、今回のリリースで2.も実現されたことになります。
JobTracker HAはNameNode HAと同様にActive-Standby構成をとり、QJMやZKFCを利用しています。

詳細は下記リンクを参照して下さい。
https://ccp.cloudera.com/display/CDH4DOC/Configuring+High+Availability+for+the+JobTracker+%28MRv1%29

JobTrackerはNameNodeのようなメタ情報を持たないため、最悪障害発生時時にはJobTrackerを再起動してジョブを投入できたのですが、数時間かかるジョブのやりなおしは避けたいものです。このような機能が必要に応じて選択できるのは喜ばしいですね。