Hadoop入門

Featured

hadoop-logoようこそ Tech blogへ!これからHadoopを勉強しよう、という方の訪問が多いようなので、そのような方はまず下記のページからどうぞ。

Hadoopのいろんな言語でwordcount(3) : Apache Crunch

Hadoop関連(全部俺) Advent Calendar 2014:16日目の記事です

#あと8日。そろそろ気力と体力の限界が、、、

wordcountの最終回です。今日はApache Crunchです。CrunchでMapReduceとSparkの両方でwordcountを実行してみましょう。

githubにコードを置きました:https://github.com/kawamon/wordcount.git (続きを読む)

Hadoopのいろんな言語でwordcount(2) : Apache Spark

Hadoop関連(全部俺) Advent Calendar 2014:15日目の記事です

昨日に続いて今日もwordcountです。今日はApache Spark (Scala、Python、Java)でwordcountを実行してみましょう。

(追記)一通り書き終わったところで、過去にSparkのワードカウントのブログを書いていたことを発見。すっかり忘れてました。。。歳取ったなぁ…

(続きを読む)

Hadoopのいろんな言語でwordcount(1)

Hadoop関連(全部俺) Advent Calendar 2014:14日目の記事です

Apache Crunchを少し調べたついでに、Hadoopでいろんな言語を用いてwordcountを実行してみました。まずはMapReduce, HadoopStreamingHivePigwordcountを実行します。

(追記)githubにコードを置きました:https://github.com/kawamon/wordcount.git

ワードカウントの余談

ワードカウントは、HadoopのMapReduceの最初の説明によく利用される、いわゆる”Hello World”のような意味をもちます。

HadoopのMapReduceではワードカウントがサンプルとして取り上げられる理由が曖昧なことが多いのですが、なぜワードカウントなのでしょうか?

いわゆる量の多いビッグデータを処理するには2つの課題があります。

  1. ストレージに保存された大量のデータをCPUで処理するために読み込むため、データの移動に時間がかかる
  2. 1台のマシンで実行するには時間がかかりすぎる(メモリに乗り切らない、あるいは1台のCPUではまかなえないほど量が多い)

このような課題の解決には、1台のマシンをスケールアップして対応するには限界があるかもしれません。そのため、複数のマシンを使ってスケールアウトする、「分散処理」が力を発揮します。ワードカウントは大量のデータを「分散」して処理できるサンプルとして取り上げられています。
(続きを読む)

2014年版 Hadoopを10分で試す(5) まずはHiveから(後編)

Hadoop関連(全部俺) Advent Calendar 2014:13日目の記事です

#既に10分を超えてしまったかもしれませんが、、、

昨日はHiveが使用するメタストアについて紹介しました。テーブルは作成されていますが、まだデータがありません。今日のデータのロードでHive編完了です。 (続きを読む)

2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)

Hadoop関連(全部俺) Advent Calendar 2014:12日目の記事です

昨日はHueからHiveを使ってクエリを行いました。Hiveでのクエリの実行時には間接的にMapReduceのジョブが実行されています。CDH5ならMapReduce v2/YARN、もしくはMapReduce v1のいずれかです。

HueがあればHadoopをほとんど意識せずにHiveのクエリを実行できますが、今日はHiveについてもう少し詳しく見てみましょう。 (続きを読む)

2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)

Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です

Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。

HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)Hadoopを40分で理解する(続きを読む)

2014年版 Hadoopを10分で試す(2) Cloudera Manager環境に移行する

Hadoop関連(全部俺) Advent Calendar 2014:8日目のブログです

昨日のブログでHadoopが動作している環境を手にしたわけですが、昨日も書いた通り、現バージョンのCloudera Quickstart VMは、デフォルトでは Cloudera Managerを使用しない環境になっています。

Cloudera Manager環境に移行する

このまま使い続けても良いのですが、Cloudera Managerを使いたい、使ってみたいという方もいるかもしれないので、Cloudera Manager環境に移行する方法を簡単に手順を紹介します。 (続きを読む)

2014年版 Hadoopを10分で試す(1)

Hadoop関連(全部俺) Advent Calendar 2014:7日目

先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか?」という質問がありました。

構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 (続きを読む)

「Hadoopを40分で理解する」のスライド公開!

(2014/12/10追記)Hadoop入門になりそうなブログをまとめたページを作成しました。-> Hadoopを10分で試す

Cloudera World 2013の資料が公開されました

先週開催されたCloudera World Tokyo 2013、資料が公開され始めました。
http://www.cloudera.co.jp/cwt2013-session.html

まだ全てのスライドは揃っていませんが、順次公開されるとのこと。
Hadoopを40分で理解する」のスライド(pdf)もダウンロードできるようになっています。

スライドシェアにも上げてあります。

#cwt2013