Apache Hadoop 3.0.0 リリース

(2017/12/15更新)

本日 Apache Hadoop v3.0.0 が GA になりました!

https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26

ハイライトは下記の通り(上記サイトから抜粋して翻訳)

  • HDFS のイレイジャーコーディング — データの耐久性を向上させながらHDFSのストレージコストを軽減
  • YARN Timeline Service v.2 (プレビュー) —タイムラインサービスのスケーラビリティ、信頼性、ユーザービリティを向上
  • YARN リソースタイプ —機械学習やコンテナワークロードとのより良い統合を行うため、ディスクとGPUなどの追加リソースのスケジューリングを有効に。(訳注:今まではCPUとメモリのみ)
  • YARN と HFDS サブクラスターのフェデレーションは、数万台のマシンで Hadoop を透過的にスケール
  • Opportunistic (オポチュニスティック?)コンテナの実行により、短命(短時間)のコンテナのリソース使用率の改善とタスクスループットが向上。従来のcentral (中央?)スケジューラーに加え、YARN は opportunistic コンテナの分散スケジュールもサポート
  • Amazon S3 (S3Gurarrd)、Microsoft Azure Data Lake、Aliyun オブジェクトストレージシステムなどのクラウドストレージシステムの機能とパフォーマンスが向上

HDFSのイレイジャーコーディングに加え、YARNにもいろいろな機能が増えているようで楽しみですね

Update: Hadoop 3.0.0 のドキュメントが公開されています

http://hadoop.apache.org/docs/r3.0.0/

ビッグデータ用のデータ管理ツール

先日開催された Cloudera World Tokyo 2017 にて、「Clouderaが提供するエンタープライズ向け運用、データ管理ツールの最新情報の使い方」というセッションで講演させていただきました。セッション申し込みが200名超(汗)と緊張感がありましたが、以下がその内容です。

(続きを読む)