Cloudera 5.11リリース

Cloudera 5.11が出たので久しぶりの更新です。

Hadoopも11年目を迎え、日本でも幅広い業種で使われるようになりました。数年前と比較すると圧倒的に使いやすくなっているので、過去に評価してそのままになっている方、既存の基盤で困っている方、そろそろ改めて検証しなおしてみてはいかがでしょうか?

例えば数年前と比べると、

  • Apache Sparkの登場により、MapReduceよりも開発が容易になった
  • Spark Streamingなど、(ニア)リアルタイムなストリーミング処理が一般的になってきた
  • Cloudera Managerのような管理ツールを使うことで、導入、運用、トラブルシュートなどが飛躍的に楽になった
  • Apache Kuduの登場で、データを取り込み/更新しながらImpalaのSQLで分析もかけられるようになった
  • マルチクラウドへの導入も容易になり、S3やAzure Data Lake Storageにデータを永続化して、ImpalaやSparkなどで処理を行うような Cloud Nativeな利用例が増えた

…など、数え上げると盛りだくさんです。機械学習のための基盤としての利用も進んでいます。

C 5.11 リリース!

そんな中、先ほど Cloudera Enterprise 5.11 がリリースされました。

http://blog.cloudera.com/blog/2017/04/cloudera-enterprise-5-11-is-now-available/

個人的に気になる機能をピックアップしてみます

  • S3の一貫性:S3Guardにより、S3のデータへの操作が他のクライアントに直ぐに見えるようになった
  • Azure Data Lake Store (ADLS)の対応。AzureのADLS上のデータに対して、Hive, Spark, MapReduceでのアクセスをサポート。(注:Impalaは対応予定)
  • Hive on S3 のパフォーマンスがさらに向上
  • Embedded Data Discovery for Self-Service BI: Hueの新機能。これ、かなりすごいと思うので、Hueのブログが更新されるのを待ちます。(翻訳します)

Kuduのセキュリティ、S3での暗号化など、クラウド対応だけでなくセキュリティにも力を入れているようですね。

Spark 2.1対応

そうそう、CDH5.11には直接含まれていませんが、Spark 2.1は別パッケージ(Parcel)でサポートしているので、利用したい方はこちらのドキュメントからどうぞ。

https://www.cloudera.com/documentation/spark2/latest/topics/spark2_installing.html

Pocket

Leave a Reply

Your email address will not be published. Required fields are marked *

CAPTCHA


日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)