Spark

Spark

Apache Sparkとデータの永続化

2日目です Apache Sparkは「インメモリで処理できる分散処理基盤」ですが、状況によってはディスクへのアクセスがあります。 明示的にディスクに永続化した場合 (persist()) チェックポイントを取った場合(checkpo...
Spark

Sparkでワードカウントしてみる

本日Clouderaのブログで、「How-to: Run a Simple Apache Spark App in CDH 5」という記事が公開されました。一言で言えば、Apache SparkでWordCountを実行するというものです。...
CDH

CDHとApache Spark

CDH(Cloudera's Distribution including Apache Hadoop)にApache Sparkが仲間入り 本日Clouderaから公開されたプレスリリース(英語)によると、ClouderaとDataBri...