Spark

Kudu

Apache Kuduを10分で試す(3) Spark編

Apache Kuduを10分で試すシリーズの3回目です。前回のブログに続き、今回は Spark からKuduにデータを書き込むチュートリアルを試してみましょう。 Kudu-Sparkのクイックスタートはこちらから参照...
Kudu

Apache Kuduを10分で試す(2) NiFi編

前回のブログに続き、今回は NiFi からKuduにデータを書き込むチュートリアルを試してみましょう。 NiFiはNSA(国家安全保障局)が開発し、オープンソースとしてApacheに寄贈されたソフトウェアです。複雑なデータフローを...
hive

CSVデータをParquet形式に変換する

昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp...
CDH

CDHとApache Sparkのバージョンの関係

以前「cdh-release-history」というCDHと主要コンポーネントの対応付けをまとめました。 今年はApache Spark 1.xと2.x が、CDH5.xとCDH6.xのバージョンにそれぞれどのように対応されているかに...
Kudu

Apache Spark 2.xでKuduを利用する

以前のブログ(Apache SparkでApache Kuduを利用する)の Spark2.x版です。前回のブログからあまり変わっていませんが、前回のブログの手順はSpark2.xで動作しなかったという話を聞いたのでアップデートしておきます...
CDH5

Apache SparkでApache Kuduを利用する

Apache Kudu 1.3 最近Apache Kuduのリードとライトの流れについてのブログが公開され、昨日は日本語でもウェビナーが開催されたりと盛り上がってきた「分散ストレージエンジン」のApache Kuduですが、SQLでのアクセ...
Spark

SparkのWeb UIを調べてみた

SparkのWeb UIに記載されている項目の意味について(日本語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載す...
Cloudera Manager

Sparkで取得したログを別のマシンのWeb UIで見る

#以前qiitaに投稿した記事を一部更新して再投稿しています Apache SparkのWebUIはアプリケーションの開発時のデバッグにとても役立ちます。 しかし、本番運用に入ってしまうと、簡単にはWeb UIにアクセスできなかったり、問...
Spark

Sparkジョブの履歴をSpark History Serverに取り込む

趣向を変えて今回は Qiita に投稿してみました。 Sparkジョブの履歴をSpark History Serverに取り込む
CDH5

Cloudera Quickstart VM 5.7 を使って見る

前回アップグレードが完了したCloudera Quickstart VM。ふと見ると本家に5.7が.. orz... 前回アップグレードした版、あるいはこのver 5.7のVMのどちらを使っても同じ結果になるはずですが、せっかくなので5....