hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

Hadoop入門

Hadoopや並列分散処理環境を使ってみよう!

これからHadoopに関わろうと思っている方のためのまとめ情報です。
最新情報はこのページに反映されていないので、ブログ記事も探してみてください。

Hadoopの紹介

Hadoopとは

Apache HadoopはApache Software Foundation (ASF) の管理の元に公開されているオープンソースソフトウェアです。Apache Licence の元で、誰でも無料で使うことができ、数千台を超える規模で並列分散処理環境を構築することができます。

Hadoopは、もともと Google が公開した論文を元に開発されたソフトウェアの組み合わせです。当初は

  • HDFS (Hadoop分散ファイルシステム)
  • MapReduce (分散処理)

の2つのコンポーネントから構成されていました。Hadoopのバージョンが上がり、MapReduceがYARNとMapReduceの2つに別れたことから、現在は次の3つのコンポーネントから構成されています。

  • HDFS
  • YARN (リソース管理)
  • MapReduec

Hadoopエコシステム

Hadoopは数多くのマシンを使用して大量のデータを蓄積し、そのデータに対して分散処理を行う基盤を提供しています。しかし、当初MapRedecueの開発にはJavaが必要だったり、使い勝手が悪いところもあり、Hadoopをより便利に使うために多くソフトウェアが開発されています。それらを総じてHadoopエコシステムと呼びます。

最近ではHadoopエコシステムを含めてHadoopという場合もあります。狭義のHadoopと広義のHadoop。どちらも使われています。また、何を持ってエコシステムと言うのかも厳密な定義はないと思います。

Hadoopエコシステムの一例としては、SQLで分散処理を行うための Apache Hive や Apache Impala、ワークフローエンジンの  Oozie、GUIのHue等、数十以上のエコシステムがあります。その多くがYahoo!やFacebookなどの企業で開発され、Apache に寄贈されてオープンソースとして公開されています。現在は様々な企業のエンジニアがメンテナンスなどを行なっています。

 

Hadoopディストリビューション

Hadoop黎明期のように、一部のパワーユーザーが頑張って運用する時代は去り、企業で大規模に利用されることが一般的になりました。企業で使うためには商用サポートが必要な場合もありますし、また、簡単に導入、運用、監視できるツールも求められます。

CDH (Cloudera’s Distribution Including Apache Hadoop)は、Cloudera社のHadoopディストリビューションで、エンタープライズ環境で最も広く使われています。CDHはオープンソースで公開されており、サポートが必要なければ無料で利用することもできます。また、Clouderaが公開している運用管理ツールのCloudera Managerは秀逸なソフトウェアで、制限はあれど無償で利用することもできますので、全てのHadoop管理者にオススメです。

Hadoop参考情報

Hadoop関連書籍の発売予定

オライリーを含むHadoop関連書籍の発売予定をまとめています。

Hadoopの理解に関する役立つリンク(若干情報古いので注意)

Hadoopを40分で理解する

イベントで喋ったときの資料です。Hadoopとはどんなものか、大雑把にイメージが掴めるかと思います。初心者向けです。ちょっと古いですが、コンセプトは大きく変わっていません。(詳細はこちら

Hadoopを10分で試す

Hadoopを10分で試す、というタイトルで書いていたブログの総集編です。今はクラウド環境もあるので、さらに手軽に試せるようになったので、いずれ書き直す予定です!?

コラム:Hadoopを使ってみたい!

新しく何かを始めようと思った時、面倒だなぁと思うことは多いものです。書籍やブログをみて「これは役立ちそうだ」と思っても、ちょっと試すことにさえにも辿り着けず、頓挫しているものがTODOリストやPocket(旧Readitlater)に大量にあります。
#書いていて嫌な気持ちになってきた、、、
Hadoopはそんな面倒なものの一つかもしれません。書籍を読んで「よし、やってみるか」という強い決意を持ったすぐ後、

試すにはマシンを買わないといけないのかなぁ

いや、EC2でいけそう。アカウントどうしようか

なんか仮想マシンでもできそうって書いてある

という第一の壁があります。運良く壁を乗り越えたあと、

 

ソフトはどこからダウンロードするの?

コマンドラインでやるの?

設定面倒そう…

内容を入力してください。


いつやるの?ー>「今でしょ」「今度でいいや!」
というパターンになっていまうことが多いです。良質な書籍も記事も多いのですが、いかんせん最初の壁が高い印象があります。

先月書いたブログ、「Hadoopを10分で試す」シリーズでは、あらかじめ用意されている仮想マシンイメージを使い、最初の敷居を下げることを目的として書いてみました。過去に挫折したことがある方は週末にでも是非!

この記事の初稿時期は環境構築だけでも敷居が高かったのですが、現在は環境光chくはパブリッククラウドが利用でき、Sparkを試すだけならローカルマシンでも実行でき、、、と敷居は大幅に下がっています。最初に仮想マシンイメージでで試して見るのもお勧めですが、次のステップは複数のマシン環境で試してください!