YARNとKafkaの短編動画

YARNのチューニングってわかりにくいですよね?このシリーズの動画は割と分かりやすいと思います。同様に、Kafkaって何?って人にはすごく分かりやすい動画。

  • Tuning YARN Applications
  • Quotas: Cloudera Distribution of Apache Kafka

動画でも紹介されていますが、リソース管理のパラメータの設定を行うためのスプレッドシート、これ便利!おすすめです。

http://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_yarn_tuning.html

シリーズ6本の動画が公開されていますが、左上のメニューから選択できます。(インラインではうまく貼れませんでした)

両方とも10分もないのでお時間のあるときにどうぞ〜

YARN/MapReduce v2のチューニング

Tuning the Cluster for MapReduce v2 (YARN)

良いYARN/MapReduce v2のチューニングドキュメントがあったので共有。

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_yarn_tuning.html

抜粋すると、24core/256GBのワーカーノードを例にして、HDFSやMapReduce/YARN、HBase、ImpalaやSolr、各種エコシステムのデーモンを実行する場合の

  • それぞれのデーモンへのリソースの配分
  • ノードマネージャーのプロパティと計算式(!)
  • リソースマネージャーのプロパティとサイジングと計算式(!)
  • ゲートウェイとクライアントの設定
  • コンテナのプロパティとサイジングと計算式(!)

比較的シンプルなMapReduce v1と比べると、YARN/MapReduce v2の設定は複雑でわかりにくいですが、この資料はよくまとまっていると思います。チューニングの際にはきっと役立つでしょう。

YARNで使うリソース情報はどこから取ってくるのか

YARNでは、pmem(物理メモリ)やvmem(仮想メモリ)、CPUコア数などのリソース設定を行うことができます。特に、リソースを超えた場合はタスクをkillすることもできます。

yarn.nodemanager.pmem-check-enabled

yarn.nodemanager.vmem-check-enabled

では、これらのチェックに使う情報はOSからどのように取ってくるのでしょうか? (続きを読む)

YARNのスケジューラアルゴリズム

19日目です

先日MapReduce v1のスケジューラアルゴリズムというブログを書きました。YARN / MRv2 が推奨になりつつなる今、YARNでのスケジューラアルゴリズムも確認しておいた方が良さそうです。
※CDH4.3での確認です。CDH5b1の環境で検証できたら後ほど更新します。 (続きを読む)