Sparkで取得したログを別のマシンのWeb UIで見る

#以前qiitaに投稿した記事を一部更新して再投稿しています

Apache SparkのWebUIはアプリケーションの開発時のデバッグにとても役立ちます。

sparkhistory7.png

しかし、本番運用に入ってしまうと、簡単にはWeb UIにアクセスできなかったり、問題が発生してから時間が過ぎてしまい見たかった情報が流れてしまうこともあります。

(続きを読む)

StreamSetsでGUIからデータフローを作成

StreamSetsのData CollectorというOSSは、GUIからデータフロー(パイプライン)を定義して実行することができます。かなり簡単なのでオススメです。

t26

今回はQuickstart VM の環境にセットアップしてみました。詳細はQiitaに書いてみたので以下のリンクをどうぞ。

http://qiita.com/kernel023/items/07c1182507e15cadb472

http://qiita.com/kernel023/items/8a939f51cca8469e1f04

セキュアなHadoopクラスタ:Cloudera ManagerでのKerberos化

前回はCloudera Managerを使ってCloudera Quickstart VMを利用できるようにしました。今回はKerberosを使用してセキュアなクラスタ化を行います。

セキュア化の背景

Hadoopのメリットの一つはデータを一箇所に溜めておき、そのデータに対して様々なアプローチができることです。(データレイク、と呼ばれることも多い) (続きを読む)

Cloudera Quickstart VM 5.7 を使って見る

前回アップグレードが完了したCloudera Quickstart VM。ふと見ると本家に5.7が.. orz…

cm57quickstarthttp://www.cloudera.com/downloads/quickstart_vms/5-7.html

前回アップグレードした版、あるいはこのver 5.7のVMのどちらを使っても同じ結果になるはずですが、せっかくなので5.7をダウンロードし、新しい仮想マシンを使ってみます。 (続きを読む)

(備忘録)Hadoop、CDH、Cloudera Manager、Sparkの便利リンク

最近見つけた便利なリンク

Cloudera Quickstart VMを5.7にアップデート(1)

先日 Cloudera Enteprise 5.7 がリリースされました!リリースアナウンスによると、

  • Hive on Sparkのサポート!
    • Hiveによるバッチ処理をSparkでも実行できるようになりました。
  • Impala 2.5は前のバージョンと比較して2倍高速に。これはかなり凄い
  • HBaseが1.2にリベース
  • Cloudera Manager 5.7。さらに使いやすく
  • セキュリティ強化
  • 品質向上、、、

など、今回のリリースはかなり気合が入っているようです。

いつものように最新バージョンを手軽に触ってみたいところですが、残念ながら現時点ではCloudera Quickstart VMの5.7対応版はリリースされていません。今回はダウンロードできる5.5から5.7にアップグレードしてみました。

(続きを読む)

Hadoopで使っているポート番号の確認、設定

Cloudera Manager Advent Calendar 2015の2日目です

Apache Hadoop、やエコシステムではさまざまなポートを使用してネットワーク通信を行います。それぞれ別のプロジェクトで開発されているので、横断的にポート番号の確認をしたい場合、プロパティを調べるのは結構面倒です。

そんな時に役立つページが下記のリンクで、例えばCDH5で利用しているポート番号の一覧を見ることができます。

http://www.cloudera.com/content/www/en-us/documentation/enterprise/latest/topics/cdh_ig_ports_cdh5.html

#Googleなどで「CDH5 ports」というキーワードで検索すれば(おそらく)ヒットするので便利ですよ。

(続きを読む)

Quickstart VMをCloudera 5.4にアップデート(後編)

CDH 5.4

前回はQuickstart VMのCloudera Managerを5.4 にアップデートしたので、本日はCDH 5.4にアップデートしてみましょう。

Quickstart VMで利用できるCloudera Managerは「Express版」という無償版のエディションのため、無停止でアップデートするためのローリングアップグレードには対応していません。従って、ドキュメントの手順に従い、サービスを停止してアップデートすることになります。(Quickstart VMは所詮1ノードですしね、、、本番で使うこともないので停止しても無問題ですが、本番環境の場合は注意が必要です) (続きを読む)