Sparkでワードカウントしてみる

本日Clouderaのブログで、「How-to: Run a Simple Apache Spark App in CDH 5」という記事が公開されました。一言で言えば、Apache SparkでWordCountを実行するというものです。
英語の記事でもそれほどハマるところはないと思いますが、手元にCDH5の環境があるので試してみました。
(続きを読む)

CDHとApache Spark

CDH(Cloudera’s Distribution including Apache Hadoop)にApache Sparkが仲間入り

本日Clouderaから公開されたプレスリリース(英語)によると、ClouderaとDataBricksがパートナー提携し、CDHにApache Sparkがサポートされるようになるとのことです。

更新)日本語のプレスリリースが出ています。

Cloudera、新たなパートナープログラムCloudera Connect:Innovatorsを発表 〜ハイスピードデータアナリティクスのためDatabricks社とタイアップし、Sparkをサポート〜

Apache SparkはMapReduceを使用せずに分散処理を行う仕組みです。詳しい資料(Spark/Shark)が @oza_x86さんから公開されています。
この資料をご覧になれば、下記は読む必要ありません、、

(続きを読む)