CDH release history (Japanese | 日本語 )

Hadoop関連(全部俺) Advent Calendar 2014: 25日目の記事です

elephant

カレンダー最終日&CDH5.3.0がリリースされたのを記念に、CDHのリリース履歴を1枚の図にまとめてみました。(かなり文字が小さいので、ダウンロードしてご覧になることをお勧めします。なお、画像はクリックで拡大します) (続きを読む)

Cloudera Manager 5.3にアップデート

Hadoop関連(全部俺) Advent Calendar 2014: 24日目の記事です

#本日用に準備していたブログの仕込みが間に合わないため、明日にまわします

昨日CDHを5.3.0にアップデートしていたのですが、Cloudera Managerは5.2のままだったので、先ほど5.3にアップデートしました。簡単に手順をまとめてみました(。

手順はドキュメントにかなり詳しく書かれています。更新する前に読んだ方がいいでしょう。英語だから読むのが面倒だとか、いままで大丈夫だったから、多分なんとかなるはず(!)というのは危険です[*1] (続きを読む)

Cloudera 5.3.0 リリース!

Hadoop関連(全部俺) Advent Calendar 2014: 23日目の記事です

Cloudera Managerのトップメニューには「新しいParcel」というアイコンがあり、アップデートされたパッケージがある場合にはパッケージの件数を表示します。

Cloudera 5.3.0

このアイコンで気づきましたが、CDH5.3.0とCloudera Manager 5.3.0 が公開されていますね。一足早いクリスマスプレゼントですね(笑 (続きを読む)

Apache Kafkaをセットアップ(途中まで)

Hadoop関連(全部俺) Advent Calendar 2014:21日目の記事です

Apache KafkaはLinkedInで開発された分散型のメッセージングシステムで、大量のイベントとログデータを低レイテンシで収集/配信するために使用できます。最近 Apache Flume と連携した Flafkaなどが登場しているので、徐々に使いやすくなりそうです。勉強しなければ、、、

ということで、今回も愛用している Cloudera Quickstart VM の環境に Kafka をセットアップします。 (続きを読む)

2014年版 Hadoopを10分で試す(6) Pig

Hadoop関連(全部俺) Advent Calendar 2014:19日目の記事です

先日のHive編 (1),(2),(3) に続いてApache Pigです。Hive同様に、PigはMapReduceの上に位置するHadoopのエコシステムで、Pig Latinと言う「データのフロー」を記述できる言語で処理を書くことができます。

余談ですが、Clouderaのデータアナリスト向けトレーニングではHive、Pig、Impalaを扱っています。来年3月までの開催は、年明け1月のみとなっているので、興味のある方は是非。ディスカウントコード(ClouderaJapan_10)も利用できます(宣伝)。 (続きを読む)

Apache Sparkでのデータの永続化を確認してみる

Hadoop関連(全部俺) Advent Calendar 2014:18日目の記事です

Apache Sparkはインメモリで処理を行いますが、ReduceByKeyなどでシャッフルされるような場合はディスクに永続化されます。(参考情報:Apache Sparkとデータの永続化

明示的にディスクにpersistすることもできますが(StorageLevel.DISK_ONLYを設定するなどして)、実際にどのようにローカルディスクに書き出されるかを確認してみました。 (続きを読む)

HBase 1.0.0 に向けてのまとめ

Hadoop関連(全部俺) Advent Calendar 2014:17日目の記事です

下記のツイートを見て知ったのですが、

ということで、ついにHBaseも1.0.0が秒読み(マダ)。本日17日に1.0.0RCブランチが登場するかもしれません。(日本時間の現時点ではまだです)

O’ReillyのHBase(馬本)は0.91ベースで書かれています。現在HBase 2nd editionが執筆中のようですが、大きく変わってくるでしょうね。せっかくの機会なので、復習をかねて、0.92以降の変更点をまとめておきます。 (続きを読む)

Hadoopのいろんな言語でwordcount(3) : Apache Crunch

Hadoop関連(全部俺) Advent Calendar 2014:16日目の記事です

#あと8日。そろそろ気力と体力の限界が、、、

wordcountの最終回です。今日はApache Crunchです。CrunchでMapReduceとSparkの両方でwordcountを実行してみましょう。

githubにコードを置きました:https://github.com/kawamon/wordcount.git (続きを読む)