2016年の象(Hadoop)四方山話

2016年初日です。
img_2481#今年は最近の多忙さの現実逃避に書き始めたので、途中で挫折するかもしれません。初日で後悔の念が….

最近Hadoopってどうなのよ?

数年前のビッグデータブームは去りましたが、データ量が増え続けていることには変わりありません。IoTが普及し、GPSやヘルスケア、または工場などでセンサーなどのデータを広く集め、リアルタイムで処理、またはオフラインで分析などビジネスに生かす機会が増えています。
ビッグデータの基盤はHadoopだけではありませんが、海外や先進的なウェブ企業での利用から遅れること数年、今年は日本国内でもかなりビジネスでの利用が増えていると感じます。(事例が少ないと思う方も多いかもしれませんが、公開されてないだけですよ!)
まだHadoopを知らないという方や間違って理解している人も多いですが、この辺りは別途アドベントカレンダーでまとめてみるかも!?
Hadoop関連の書籍も(特に英語版は)順調に増えているので、興味がある方はこちらのリストもどうぞ ->  Hadoop、Spark、ビッグデータ関連書籍まとめ

今年の流行りは?

2年前に書いたHadoop関連(全部俺) Advent Calendar 2014アドベントカレンダーを見返すと、当時はApache Sparkので始め、SQL on Hadoopが花盛りだったようです。今でもSpark人気は続いており、SQLの人気は相変わらずです。
さて、今年は

  • Hadoop on Cloud
  • データサイエンス

を取り上げてみます。(*1)

Hadoop on Cloud

クラウド上でHadoopを利用する企業は年々増えています。(が、Strata+Hadoop World 2016での基調講演によると、オンプレミスで利用している企業の方がまだまだ多い)
オンプレミスの環境からクラウドへの移行を「Lift and Shift」と言うようです。
一方、単純にクラウド上に環境を移行するのではなく、「Cloud native」な利用も増えています。クラウドネイティブな場合、データはオブジェクトストレージ(S3など)に格納しておき、そのデータに対してクラウドのコンピュターリソースを使って処理を行います。
最近はAzureやAWS, GCPなどのクラウド上に容易にデプロイするツール(例: Cloudera Director)もありますし、S3のデータをHadoop上にコピーすることなく、直接S3上のデータを扱ったり処理したりもできるので、今後クラウドネイティブな利用は増えていくでしょう。
以下のMiyake氏による「Cloud Native Hadoop」の資料はわかりやすいのでオススメです。
http://www.slideshare.net/Cloudera_jp/cloud-native-hadoop

データサイエンス

「21世紀で最もセクシーな職業」なデータサイエンティストは一時期バズワードになっていましたが、今年は人工知能(AI)という言葉が一般紙やテレビで普通に使われるようになりました。世界中で人工知能ブームです。
データ分析や機械学習にApache SparkのMLlibやML pipelineを使った事例も増えています。後述のCloudera World Tokyo 2016でもデータサイエンストラックでセッションがあり、資料が公開されています。
今年は「データの民主化」という言葉を多く耳にしましたが、もしまだなら有賀氏のブログが参考になるのではないでしょうか?データを一箇所に大量に貯めることができるHadoopでデータ活用に民主化が進みそうですね。
データを一箇所に集めることでデータ活用の民主化が進んだ話

Hadoopのイベント(日本)

今年日本で開催された大規模なHadoopのイベントは下記の通り(だと思いますが漏れていたらご指摘ください)。

参考:過去のHadoop関連アドベントカレンダー

 
さて、明日からは技術的な話になる予定。
*1)本当は3つにしようと思ったけど間に合わなかったので割愛。加筆するかもしれません

コメント

  1. kernel023 kawasaki より:

    追記: Hadoop/Spark Conference Japan 、去年の開催だと思っていましたが今年の実施でした…