Spark

Spark

Sparkの日本語ドキュメント

Spark 1.5.0 の日本語版ドキュメント。何かと参考になると思うのでメモ。 誰が翻訳しているのかわかりませんが、このようなドキュメントはありがたいですね。OSSにはソースやパッチを書いたりするだけでなく、このような形での貢献の仕方も...
Spark

「初めてのSpark」が発売されます!

2015/8/22発売予定です。 翻訳は象本、馬本、などHadoopやビッグデータ関係の翻訳でおなじみの玉川さん。気合い入れてレビューしたので是非手に取ってみてください!
Spark

Spark 1.4.0のDAG Viewer

先週のHadoop Summitに続き、今週はSpark Summitが開催されています。盛りだくさんですね。 日本でも、来週は23日にSpark Casual Talk #1、25日に HBase Meetup Tokyo Summe...
hue

Hue 3.8のノートブックは凄い

Hue 3.8で搭載されたノートブック。 ようやく手元の環境で動かしてみました。ImpalaもHiveもSparkも使える。 結論から言うと、これはいい!!
hive

CDH 5.4でHive on Sparkを試す

Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveか...
Spark

Apache Sparkでのデータの永続化を確認してみる

Hadoop関連(全部俺) Advent Calendar 2014:18日目の記事です Apache Sparkはインメモリで処理を行いますが、ReduceByKeyなどでシャッフルされるような場合はディスクに永続化されます。(参考情報:...
crunch

Hadoopのいろんな言語でwordcount(3) : Apache Crunch

Hadoop関連(全部俺) Advent Calendar 2014:16日目の記事です #あと8日。そろそろ気力と体力の限界が、、、 wordcountの最終回です。今日はApache Crunchです。CrunchでMapReduceと...
Spark

Hadoopのいろんな言語でwordcount(2) : Apache Spark

Hadoop関連(全部俺) Advent Calendar 2014:15日目の記事です 昨日に続いて今日もwordcountです。今日はApache Spark (Scala、Python、Java)でwordcountを実行してみましょ...
hadoop

Hadoop関連本リリース予定 (2014/12版)

4日目です。 2015/1/1: 最新情報を別ページにまとめました O'Reillyのサイバーセールで洋書を買いまくった皆様、いかがお過ごしでしょうか?前回のブログからだいぶ時間が過ぎてしまったので、今後出版される予定のHadoop関連本の...
Spark

Apache Sparkとデータの永続化

2日目です Apache Sparkは「インメモリで処理できる分散処理基盤」ですが、状況によってはディスクへのアクセスがあります。 明示的にディスクに永続化した場合 (persist()) チェックポイントを取った場合(checkpo...