hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

Cloudera 5.4 (CDH 5.4 + Cloudera Manager 5.4) リリース

Cloudera Enterprise 5.4

表記の通り、Cloudera Enterpriseの新しいバージョン(5.4)が公開されています。日本語のリリースはこちら

今回のリリースは「品質、セキュリティ、パフォーマンス、使いやすさ」の改善にフォーカスしているとのことです。いつものように技術的に興味深い点をピックアップしてみます。
あくまでも個人的に興味があるものだけを抜き出しているので、詳細は5.4のリリースノートImpala 2.2のリリースノートごらんください。

RHEL6.6/CentOS 6.6のサポート

  • 多くの要望に応えて対応されました。多くの方に朗報じゃないかと思います。

Hadoop

HDFS

  • Hadoop 2.6へのリベース
  • データノードのホットスワップディスクドライブ (HDFS-1362)
    • 以前試して失敗した機能。これって5.3で対応してたんじゃないのか?
  • 重要データの編集 (Sensitive data redaction)
    • これは面白い機能。まだドキュメントを詳しく読んでいないけど、クレジットカード番号やホスト名を XXXX-XXXX-XXXX-XXXX やHOSTNAME.REDACTED、のように置換してくれる機能のよう
    • セキュリティを強化してもログなどから機密情報が漏れることは多いですが、この機能により防ぐことができるのではないでしょうか?
  • ヘテロジニアスストレージポリシーのサポート
    • SSDやHDDが混在したディスク構成でのポリシーに対応したとのこと。試してみなければ

MapReduce

  • Derive heap size or mapreduce.*.memory.mb automatically (HDFS-5785)
    • MapReduceジョブのメモリ関連の設定が簡単になります。説明によると、ヒープサイズ(mapreduce.map.java.opts or mapreduce.reduce.java.opts) とコンテナサイズ(mapreduce.map.memory.mb or mapreduce.reduce.memory.mb)の両方をセットする代わりに、どちらか一方をセットすれば良い。もう一方の値はmapreduce.job.heap.memory-mb.ratioから推定される、とのこと。

HBase

  • HBase 1.0.0にリベース
    • Highly-Available Read Replicas
    • MultiWAL Support
    • Medium-Object (MOB) Storage
  • 注意点として、HBase 1.0ではAPIが新しくなったため、古いAPIを使用しているアプリは今後APIの変更を行わう必要が生じます
  • どれも興味深いですね

Hive

  • Hive 1.1 にリベース
  • Hive on Spark!(テクノロジープレビュー)
    •  以下の機能がまだ未対応とのこと。
    • Parquet does not currently support vectorization; it simply ignores the setting of hive.vectorized.execution.enabled.
    • Hive on Spark does not yet support dynamic partition pruning.
    • Hive on Spark does not yet support HBase. If you want to interact with HBase, Cloudera recommends that you use Hive on MapReduce.

Hue

  • gethue.comに翻訳しているブログをごらんください。すごいですよ〜
  • Notebook UIはサポート対象ではないのでご注意を

Cloudera Search

  • セキュリティ関連の機能がかなり強化されています
  • まとめるのが難しいのでドキュメントをごらんください…

Spark

  • Spark 1.3.0にリベース
    • 下記が新機能
    • Spark Streaming WAL (write-ahead log) on HDFS, preventing any data loss on driver failure
    • Spark external shuffle service
    • Improvements in automatically setting CDH classpaths for Avro, Parquet, Flume, and Hive
    • Improvements in the collection of task metrics
      Kafka connector for Spark Streaming to avoid the need for the HDFS WAL
  • 何と、Spark SQLの話が。。
    • The following is not yet supported in a production environment because of its immaturity:
    • Spark SQL (which now includes dataframes)

その他、Oozie、Parquet、Sqoop、Crunch、、などもバージョンアップされています。

Impala 2.2

雑記

ここまで複数のエコシステムが絡み合ってくると、Hadoop単体だけにフォーカスするのは難しいですね。どのようにデータを溜めて処理するかを十分に検討する必要があります。
これからは豊富なHadoopエコシステムをどう使いこなすか、というのが重要になってくるでしょう。例えばCDHだと、

  • データの蓄積
    • HDFS、HBase、Kafka
  • バッチ処理:安定して枯れているMapReduce (Hive/Pig/Crunch等を含む)
    • 部分的にはSparkで置き換えも
  • SQLでの分析処理:Impala
  • 検索による分析処理:Cloudera Search + Hue
    • インデックスの作成は MapReduce / HBase(Lily) / Morphline
  • ストリーミング処理
    • Spark Streaming, Flume

のような組み合わせが思い浮かびます。(他にもありますが、、)
目的に合わせて、適切なエコシステムを組み合わせましょう!

コメント