ビッグデータ関連書籍もう一冊

アーリーリリース版を読んでみましたが、Hadoop Operations のエンタープライズ版のような趣があります。HadoopオペレーションほどHadoop寄りではないですが、最近の本なので構成を考える方にはお勧め。

Architecting Modern Data Platforms

A Guide to Enterprise Hadoop at Scale

http://shop.oreilly.com/product/0636920054825.do

Apache Hadoop 3.0.0 リリース

(2017/12/15更新)

本日 Apache Hadoop v3.0.0 が GA になりました!

https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26

ハイライトは下記の通り(上記サイトから抜粋して翻訳)

  • HDFS のイレイジャーコーディング — データの耐久性を向上させながらHDFSのストレージコストを軽減
  • YARN Timeline Service v.2 (プレビュー) —タイムラインサービスのスケーラビリティ、信頼性、ユーザービリティを向上
  • YARN リソースタイプ —機械学習やコンテナワークロードとのより良い統合を行うため、ディスクとGPUなどの追加リソースのスケジューリングを有効に。(訳注:今まではCPUとメモリのみ)
  • YARN と HFDS サブクラスターのフェデレーションは、数万台のマシンで Hadoop を透過的にスケール
  • Opportunistic (オポチュニスティック?)コンテナの実行により、短命(短時間)のコンテナのリソース使用率の改善とタスクスループットが向上。従来のcentral (中央?)スケジューラーに加え、YARN は opportunistic コンテナの分散スケジュールもサポート
  • Amazon S3 (S3Gurarrd)、Microsoft Azure Data Lake、Aliyun オブジェクトストレージシステムなどのクラウドストレージシステムの機能とパフォーマンスが向上

HDFSのイレイジャーコーディングに加え、YARNにもいろいろな機能が増えているようで楽しみですね

Update: Hadoop 3.0.0 のドキュメントが公開されています

http://hadoop.apache.org/docs/r3.0.0/

HDFSの新しい機能3つ

HDFSは分散ファイルシステムとして確固たる地位を築きましたが、NFSのサポートやスナップショットなど、多くの機能が追加されています。

その中で、今後 Hadoop 3 で重要となる「HDFSのイレイジャーコーディング」を含めたClouderaのHDFSに関するブログ記事を日本語に翻訳しました。

全3回にわたって掲載する予定なので、興味があればご覧ください。

第1弾:Apache HadoopのHDFS Erasure Codingの紹介

第2弾:How-to: Apache Hadoopで新しいHDFS DataNodeディスク間バランサを使用する

第3弾:HDFSのメンテナンスステート

(祝)Hadoop 3.0.0-alpha1リリース

本日、Hadoop 3.0.0-alpha1がリリースされました!

今年はHadoop10周年です。過去のリリース履歴をいくつかピックアップしてみました。(赤字は対応しているCDHのバージョン)

  • 0.1.0 – 2006/4/2
  • 0.18 – 2008/8/22  (CDH1)
  • 0.20.1 – 2009/9/14 (CDH2)
  • 0.20.2 – 2010/2/26  (CDH3)
  • 0.23.0 – 2011/11/11
  • 1.0.0 – 2011/12/27
  • 2.0.0-alpha – 2012/5/23 (CDH4)
  • 2.1.0-beta – 2013/8/25
  • 2.2.0 – 2013/10/15
  • 2.3.0 – 2014/2/20  (CDH5)
  • 3.0.0-alpha – 2016/9/3

#さて、6はいつ頃公開されるんでしょうか…

日本では11月8日に恒例のCloudera World Tokyo 2016が、10月にはHadoop Summit Tokyo が開催されます。ますます盛り上がって欲しいですね 🙂

2015年版 Hadoopを10分で試す〜Docker編〜

今年は死ぬほど忙しいので、アドベントカレンダー全部俺は断念しました。。。

Hadoopを10分で(Dockerで)試す

が、例年「Hadoopを10分で試す」というブログを書いてきたので、今年も書いておきましょう。ちょうどいいタイミングでDockerのブログが公開されていたので、今年はDockerで試してみます。

(続きを読む)

Apache Hadoop誕生9周年

Apache Hadoopは9歳に!

Apache Hadoopが登場したのが2006年4月1日なので、本日が9周年のようです。Hadoop誕生7周年のブログを書いてから、あっという間に2年も過ぎていました。

さらに、今日はApache Sparkが誕生してから5年だそうです。

おめでたいですね〜。花見で一杯にふさわしい。

CDH 5

Cloudera 5.0 (CDH5.0+Cloudera Manager5.0)の公開が昨年の2014/4/2だったので、こちらもちょうど1年が過ぎました。現在の最新は5.3.2ですが、比較的近いうちに5.4も公開されることでしょう。

Hadoopと関連エコシステムの進化はまだ続いています。安定度、信頼性は向上し、低遅延で処理できるようになり、多機能になり、ユーザー向けのGUIもリッチになり、運用管理ツールも充実して、この2年間だけでもかなり変化しています。

エンタープライズ用途での利用も相当増えています。まだ評価もしていないと言う方、数年前に評価したと言う方はそろそろ最新のバージョンで試してみませんか?

次の1年でHadoopはどう進化するのでしょうか?楽しみは尽きませんね!