Hadoop is Dead. Long live Hadoop の所感

hadoop

数年前から「Hadoopは終わった」と言われることがあります。

厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフトウェアなのでしょうか?

@shiumachiの「Hadoopの時代は終わった」を正しく理解するの記事は、Hadoopを取り巻く環境の変化について書かれています。データ基盤の歴史に始まり、時代とともに変化し、現代におけるデータ基盤になっているという考察があり必見です。

Hadoop is Dead. Long live Hadoop.

Arun C Murthy (Hortonworksの創業者であり、現在ClouderaのCPO)が本日公開したブログ、「Hadoop is Dead. Long live Hadoop」では、Hadoopは哲学(”Hadoop is Philosophy”)、という表現が使われています。

英語だとなかなか日本人は読まないので日本語記事を公開して欲しいところです。(が、Google翻訳等に貼り付けても読めるので、読もうと思えばそんなに大変じゃない)。著者に許可を取って全文翻訳とも考えましたが、いつどこで公開するかなどを考えているうちに面倒になって断念。

しかしかなり面白いので、興味深い範囲だけ抜粋してみました。誤訳等あれば指摘してください。

Hadoopとは何か

HadoopとはApache Software Foundationで、バッチ処理用のHDFSとMapReduceを使用した単一のオープンソースプロジェクトとして始まったが、すぐに広範囲で豊かなエコシステムを生み出した。現在のClouderaディストリビューション(CDH/HDP/CDP)には、ストレージ、コンピューティングフレームワーク(YARN,将来はKubernetesなど)、バッチ/リアルタイム計算フレームワーク(Spark/Flinkなど)、オーケストレーション、SQL、NoSQL、機械学習、セキュリティ、ガバナンスなどの30を超えるオープンソースプロジェクトが含まれている。

(略)

個人的には、「Hadoop」とは哲学であり、データを管理および分析するための最新のアーキテクチャーへの動きである。

Hadoopは哲学

  1. モノリシックで柔軟性のないソフトウェアスタック(例えば独自ストレージフォーマット、パーザー、実行エンジンなどを垂直統合したデータベース)から離れ、各レイヤー(ストレージ、計算プラットフォーム、バッチ/リアルタイム/SQL用の計算フレームワークなど)を構成可能なレゴブロックとして構築し、分離されたソフトウェアスタックを目指す動き
  2. 大規模分散システム向けの商用ハードウェアを活用し、独自仕様/モノリシックなハードウェア+ソフトウェアスタックから脱却する動き
  3. オープンデータ標準とオープンソーステクノロジーを活用し、ベンダーが管理する独自のテクノロジーから離れる動き
  4. 柔軟で絶えず変化するエコシステムのテクノロジー (MRv1 -> YARN -> k8s, MapReduce -> Spark/Flinkなど)への動き

ある意味で「Hadoopの哲学」とはデータアーキテクチャーのことであり、Ken Tompsonの有名なUnixの哲学はソフトウェア開発のことである。Eric Raymondによる著名な著書 Art of Unix Programmingで説明している 17 Rules for UNIX はデータアーキテクチャーにも当てはまる。

(ここも面白いが略)

クラウドはどうか

プライベートを含むパブリッククラウドは、これから企業がデプロイするアーキテクチャーの不可欠な部分になることは明らかである。パブリッククラウドは基本的にエンタープライズハードウェアのインフラ(サーバー、ネットワーク、データセンターなど)を商業化したものだ。これは Hadoop の哲学の信条、つまりコモディティーハードウェアに焦点を当てたものと完全に一致している。(略)

Clouderaはどうか

Clouderaはデータ企業であり、データを明確で実用的な洞察に変える力を人々に与える。「Hadoopの哲学」を採用することでそれを実現する。

(略)

先日、ソーシャルメディアでこんなコメントを見た。
「CDPでKubernetes上で実行されているSparkを使用してS3にあるデータを分析する場合、Hadoopはどこにあるのでしょうか。」
私は大声で笑って考えた
CDPサービスを使用している限り…。:-)

(略)

CDPの基本的な目標は、クラウドサービスとして、強力なテクノロジーの複雑さに対処する必要なく、企業がプラットフォームから価値を引き出すことを容易にすることである。特にデータウェアハウスと機械学習のためのネイティブなSaaSのようなサービスでCDPを提供するエクスペリエンスは、クラウドオブジェクトストアに保存されたデータ分析を推進するビジネスユーザにとって本当に簡単なものにする。さらにSDXでは、ABACによって完全に保護されたデータレイクをセットアップし、オブジェクトストアに保存されたデータとオンプレミスのHDFSに保存されたデータに渡ってきめ細かいポリシーを設定することは、ガバナンスと暗号化(ストレージと通信)のためのリネージと来歴とともに簡単になる。多くの企業のお客様から寄せられたフィードバックを見ても分かるように、この分野での進展は非常にエキサイティングだ。

では、Hadoopは死んだのか?

Hadoopについての古い考え方は死んだー終わった、埃をかぶってしまった。Hadoopは、データを洞察に変える力を人々に与える、オープンソーステクノロジーとオープンデータ標準の進化し続けるエコシステムを推進する哲学として生きており、永続している。データがある限り「Hadoop」がある。

Hadoopは死んだ。「Hadoop」万歳!


結論

結論:「Hadoop」は面白い。

ぜひ原文全てを読んでみてください!

コメント