Cloudera ManagerをDockerで!

Twitterを見ていたところ、Cloudera ManagerのDockerイメージがあるとのツイートが!

これは試さねばと思い、最近調子の悪いMBP(ロジックボードが怪しいんですよ、、)で動かしてみました。 (続きを読む)

YARNで使うリソース情報はどこから取ってくるのか

YARNでは、pmem(物理メモリ)やvmem(仮想メモリ)、CPUコア数などのリソース設定を行うことができます。特に、リソースを超えた場合はタスクをkillすることもできます。

yarn.nodemanager.pmem-check-enabled

yarn.nodemanager.vmem-check-enabled

では、これらのチェックに使う情報はOSからどのように取ってくるのでしょうか? (続きを読む)

Impalaのパフォーマンスについての記事

Impalaのパフォーマンス

https://haifengl.wordpress.com/2014/09/03/big-data-analytics-bigquery-impala-and-drill/

でGoogle Dremel、Google BigQuery、Cloudera Impala、Apache Drill(とHive、Tez)の話が出ています。とは言っても、タイトルにあるにも関わらず、残念ながらDrillの話はほとんど書かれていません。先日のHadoop Conference Japan 2014でも多くのHadoop on SQLのプレゼンが紹介されていましたが、これだけ選択肢が増えてきている現状では、後発でのメリットを強く打ち出せないと、選択するのが難しくなってきますね。

さてImpalaですが、ImpalaはなぜHiveよりもパフォーマンスが高いのかについての特徴が掲載されていたので、抜粋して訳してみました。(誤訳があればご指摘下さい) (続きを読む)