Spark

hive

CSVデータをParquet形式に変換する

昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp...
CDH

CDHとApache Sparkのバージョンの関係

以前「cdh-release-history」というCDHと主要コンポーネントの対応付けをまとめました。 今年はApache Spark 1.xと2.x が、CDH5.xとCDH6.xのバージョンにそれぞれどのように対応されているかに...
Kudu

Apache Spark 2.xでKuduを利用する

以前のブログ(Apache SparkでApache Kuduを利用する)の Spark2.x版です。前回のブログからあまり変わっていませんが、前回のブログの手順はSpark2.xで動作しなかったという話を聞いたのでアップデートしておきます...
CDH5

Apache SparkでApache Kuduを利用する

Apache Kudu 1.3 最近Apache Kuduのリードとライトの流れについてのブログが公開され、昨日は日本語でもウェビナーが開催されたりと盛り上がってきた「分散ストレージエンジン」のApache Kuduですが、SQLでのアクセ...
Spark

SparkのWeb UIを調べてみた

SparkのWeb UIに記載されている項目の意味について(日本語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載す...
Cloudera Manager

Sparkで取得したログを別のマシンのWeb UIで見る

#以前qiitaに投稿した記事を一部更新して再投稿しています Apache SparkのWebUIはアプリケーションの開発時のデバッグにとても役立ちます。 しかし、本番運用に入ってしまうと、簡単にはWeb UIにアクセスできなかったり、問...
Spark

Sparkジョブの履歴をSpark History Serverに取り込む

趣向を変えて今回は Qiita に投稿してみました。 Sparkジョブの履歴をSpark History Serverに取り込む
CDH5

Cloudera Quickstart VM 5.7 を使って見る

前回アップグレードが完了したCloudera Quickstart VM。ふと見ると本家に5.7が.. orz... 前回アップグレードした版、あるいはこのver 5.7のVMのどちらを使っても同じ結果になるはずですが、せっかくなので5....
Spark

Sparkの日本語ドキュメント

Spark 1.5.0 の日本語版ドキュメント。何かと参考になると思うのでメモ。 誰が翻訳しているのかわかりませんが、このようなドキュメントはありがたいですね。OSSにはソースやパッチを書いたりするだけでなく、このような形での貢献の仕方も...
Spark

「初めてのSpark」が発売されます!

2015/8/22発売予定です。 翻訳は象本、馬本、などHadoopやビッグデータ関係の翻訳でおなじみの玉川さん。気合い入れてレビューしたので是非手に取ってみてください!