JobTracker Recovery

CDH3u5ではJobTracker Recovery機能に対応しています。
https://ccp.cloudera.com/display/CDHDOC/CDH3+Deployment+on+a+Cluster#CDH3DeploymentonaCluster-ConfiguringJobTrackerRecovery
この機能は、MapReduceでジョブを実行中にJobTrackerに障害が発生した場合、JobTrackerの再起動後に該当するジョブをリカバリしてくれるというものです。(*1)(*2)
この機能を使用するためには、mapred-site.xmlのmapred.jobtracker.restart.recoverをtrueに設定します。
注意事項としては、
JobTracker recovery means that jobs that are running when JobTracker fails (for example, because of a system crash or hardware failure) are re-run when the JobTracker is restarted. Any jobs that were running at the time of the failure will be re-run from the beginning automatically.
と書かれているように、現在の実装では「自動的に最初から再実行」というところでしょうか。(チェックポイントを取って途中から再開されるとか期待していたんですけどねw)JobTrackerを再起動したときに、同じJobIDでジョブがサブミットされて、同じユーザーで実行されます。

下記はKillコマンドでJobTrackerを強制終了したところです。この状態でJobTrackerを開始すると、途中で中断したジョブが再実行されます。
mapred_recovery
[1] Provide ability to persist running jobs (extend HADOOP-1876)
https://issues.apache.org/jira/browse/HADOOP-3245

[2] Job tracker is not able to recover job in case of crash and after that no user can submit job
https://issues.apache.org/jira/browse/MAPREDUCE-3837

コメント

  1. kernel023 kawasaki より:

    現時点において、CDH4のJobTrackerは高可用性(HA)の構成にすることができます。
    https://linux.wwing.net/WordPress/?p=635