hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

MapReduce

CDH5

Cloudera Quickstart VM 5.7 を使って見る

前回アップグレードが完了したCloudera Quickstart VM。ふと見ると本家に5.7が.. orz... 前回アップグレードした版、あるいはこのver 5.7のVMのどちらを使っても同じ結果になるはずですが、せっかくなので5....
MapReduce

YARN/MapReduce v2のチューニング

Tuning the Cluster for MapReduce v2 (YARN) 良いYARN/MapReduce v2のチューニングドキュメントがあったので共有。 抜粋すると、24core/256GBのワーカーノードを例にして、HD...
crunch

Hadoopのいろんな言語でwordcount(3) : Apache Crunch

Hadoop関連(全部俺) Advent Calendar 2014:16日目の記事です #あと8日。そろそろ気力と体力の限界が、、、 wordcountの最終回です。今日はApache Crunchです。CrunchでMapReduceと...
hadoop

Hadoopのいろんな言語でwordcount(1)

Hadoop関連(全部俺) Advent Calendar 2014:14日目の記事です Apache Crunchを少し調べたついでに、Hadoopでいろんな言語を用いてwordcountを実行してみました。まずはMapReduce, H...
MapReduce

Hadoopにlzoの環境構築(2)

13日目です #あまりに業務が忙しいので、来週の更新は滞るかもしれません、、、 昨日のブログでlzoのインデックスを作成しました。では、このファイルをMapReduceしてみます。
MapReduce

MRv1におけるフェアスケジューラでのプリエンプション

5日目です 3日目に書いたMapReduceのスケジューラでうち、フェアスケジューラには「プリエンプション」という設定ができます。この設定をすることで、例えば緊急度の高くない長時間実行されているタスクを強制的にKillして、すぐに実行する必...
hadoop

MapReduce v1のスケジューリングアルゴリズム

3日目です。 本日のHadoopアドベントカレンダー2013は@shiumachi氏の「HBase 0.96 で導入される新しいコンパクション「Exploring Compaction」」です。コンパクションも進化しているということがわかり...
MapReduce

JobTracker Higth Availability

なぜかJobTracker Recoveryページへのアクセスが多いので、JobTracker HA(高可用性JobTracker)についても再度触れておきます。 以前書いたように、CDH4.2以降では JobTrackerを高可用性にする...
MapReduce

MapReduceの中間データを保持する(2)

昨年の夏、ブログ、MapReduceの中間データを保持する、を書いてからその後全く確認をしていなかったところ、何とCDH4.1.1で動かないことが判明!(当時はCDH4のリリース前だったので、CDH3で検証していた) 結果として原因は些細な...
MapReduce

MapReduceの中間データを保持する

MapReduceでジョブの実行時に生成される中間データは、ジョブの終了時に削除されます。これにより不要なデータは削除され、ディスク容量が圧迫されることがなくなります。 しかし、デバッグのために中間データを保持しておきたいと言うこともあるで...