HDFSの新しい機能3つ

HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。

その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日本語に翻訳しました。

全3回にわたって掲載する予定なので、興味があればご覧ください。

第1弾:Apache HadoopのHDFS Erasure Codingの紹介

第2弾:How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する

第3弾:まだナイショ

 

 

(祝)Hadoop 3.0.0-alpha1リリース

本日、Hadoop 3.0.0-alpha1がリリースされました!

今年はHadoop10周年です。過去のリリース履歴をいくつかピックアップしてみました。(赤字は対応しているCDHのバージョン)

  • 0.1.0 – 2006/4/2
  • 0.18 – 2008/8/22  (CDH1)
  • 0.20.1 – 2009/9/14 (CDH2)
  • 0.20.2 – 2010/2/26  (CDH3)
  • 0.23.0 – 2011/11/11
  • 1.0.0 – 2011/12/27
  • 2.0.0-alpha – 2012/5/23 (CDH4)
  • 2.1.0-beta – 2013/8/25
  • 2.2.0 – 2013/10/15
  • 2.3.0 – 2014/2/20  (CDH5)
  • 3.0.0-alpha – 2016/9/3

#さて、6はいつ頃公開されるんでしょうか…

日本では11月8日に恒例のCloudera World Tokyo 2016が、10月にはHadoop Summit Tokyo が開催されます。ますます盛り上がって欲しいですね 🙂

2015年版 Hadoopを10分で試す〜Docker編〜

今年は死ぬほど忙しいので、アドベントカレンダー全部俺は断念しました。。。

Hadoopを10分で(Dockerで)試す

が、例年「Hadoopを10分で試す」というブログを書いてきたので、今年も書いておきましょう。ちょうどいいタイミングでDockerのブログが公開されていたので、今年はDockerで試してみます。

(続きを読む)

Apache Hadoop誕生9周年

Apache Hadoopは9歳に!

Apache Hadoopが登場したのが2006年4月1日なので、本日が9周年のようです。Hadoop誕生7周年のブログを書いてから、あっという間に2年も過ぎていました。

さらに、今日はApache Sparkが誕生してから5年だそうです。

おめでたいですね〜。花見で一杯にふさわしい。

CDH 5

Cloudera 5.0 (CDH5.0+Cloudera Manager5.0)の公開が昨年の2014/4/2だったので、こちらもちょうど1年が過ぎました。現在の最新は5.3.2ですが、比較的近いうちに5.4も公開されることでしょう。

Hadoopと関連エコシステムの進化はまだ続いています。安定度、信頼性は向上し、低遅延で処理できるようになり、多機能になり、ユーザー向けのGUIもリッチになり、運用管理ツールも充実して、この2年間だけでもかなり変化しています。

エンタープライズ用途での利用も相当増えています。まだ評価もしていないと言う方、数年前に評価したと言う方はそろそろ最新のバージョンで試してみませんか?

次の1年でHadoopはどう進化するのでしょうか?楽しみは尽きませんね!

 

Hadoop入門

Featured

hadoop-logoようこそ Tech blogへ!これからHadoopを勉強しよう、という方の訪問が多いようなので、そのような方はまず下記のページからどうぞ。

Hadoopのいろんな言語でwordcount(1)

Hadoop関連(全部俺) Advent Calendar 2014:14日目の記事です

Apache Crunchを少し調べたついでに、Hadoopでいろんな言語を用いてwordcountを実行してみました。まずはMapReduce, HadoopStreamingHivePigwordcountを実行します。

(追記)githubにコードを置きました:https://github.com/kawamon/wordcount.git

ワードカウントの余談

ワードカウントは、HadoopのMapReduceの最初の説明によく利用される、いわゆる”Hello World”のような意味をもちます。

HadoopのMapReduceではワードカウントがサンプルとして取り上げられる理由が曖昧なことが多いのですが、なぜワードカウントなのでしょうか?

いわゆる量の多いビッグデータを処理するには2つの課題があります。

  1. ストレージに保存された大量のデータをCPUで処理するために読み込むため、データの移動に時間がかかる
  2. 1台のマシンで実行するには時間がかかりすぎる(メモリに乗り切らない、あるいは1台のCPUではまかなえないほど量が多い)

このような課題の解決には、1台のマシンをスケールアップして対応するには限界があるかもしれません。そのため、複数のマシンを使ってスケールアウトする、「分散処理」が力を発揮します。ワードカウントは大量のデータを「分散」して処理できるサンプルとして取り上げられています。
(続きを読む)