Hadoopのネットワークトラフィックを可視化してみた

Hadoopのトラフィック

Hadoopのノード間通信トラフィックは、HDFSのブロックのやりとりや、MapReduceのシャッフル&ソート間で大量に行われます。
クリスマスなので、これを可視化して美しく(?)表示してみましょう。

LinuxにはEtherApe(http://etherape.sourceforge.net/)というツールがあります。これを使うと、下記のようにグラフィカルに通信を可視化できます。
EtherApe

ということで、Youtubeに動画を上げてみました。この動画はたった4ノードですが、巷のHadooperの皆さんは、もっと大規模環境でノードの点滅を眺めながらクリスマスを過ごしてみてはいかがでしょうか? 🙂

Posted in Uncategorized

Hadoopのノード間通信(1)

Hadoop アドベントカレンダー 23日目

Hadoopのマスターノードとスレーブノード各デーモン間では定期的にハートビート通信を行っています。(例:NameNode-DataNode, JobTracker-TaskTracker)
この間隔はクラスタの規模に合わせてチューニングする必要がありますが、いったいどのような情報がやり取りされているのでしょうか?
今回はwiresharkを使用してパケットキャプチャーを行い、ソースコードと照らし合せてその内容を調べてみます。
(続きを読む)

Posted in Uncategorized

ARM Server Dayに参加しました

ARM Server Day 第一回

本日はさくらインターネット研究所で実施されたイベントに@naoto_matsumotoさんからお誘いいただき参加してきました。

背景

前職ではkernelやdriverのコードを読む機会が多かったことと、またH8などの組み込みLinuxやPICに興味を持って遊んでいた時期に鳥海師匠に感化されたこともあり、ARMにも注目していました。

ARM 64bit

ARMは従来32bitCPUしかなく、個人的には組み込み用途という印象がありました。ただ、64bitCPUも登場し、いよいよ2週間程前にKernel3.7でも正式対応されています。
kernelnewbies: ARM 64-bit support
LinaroもLEG(Linaro Enterprise Group)でARMサーバーを推進しています。
(続きを読む)

Posted in Uncategorized

続)Cloudera Impala 情報 (10)

Impala情報 2012/12/14版

ロードマップ登場

http://blog.cloudera.com/blog/2012/12/whats-next-for-cloudera-impala/

    Clouderaから日本語訳が出ると思うので、ここでは概要のみ。リリースは2013Q1とのことなので、3月ぐらいでしょうか?

    GAでの対応予定
  • ファイルフォーマット:AvroとTextFileのLZO圧縮フォーマット対応
  • 対応OSの拡大:RHEL5/CentOS5をサポートする意味は大きいのでは? RHEL/CentOS 5.7, Ubuntu, Debian, SLES, and Oracle Linux
  • 速いマシンと遅いマシンが混在した環境でもうまく動くように
  • JDBCドライバ対応
  • DDL対応。CREATE TABLEができるようになる
  • 高速で、大規模に、よりメモリを効率よく使うJOIN:partitioned hash join
  • 高速で、大規模に、よりメモリを効率よく使うAggregation:enables pre-aggregation
  • SQLパフォーマンスの最適化:さらに低レイテンシに
  • 自動メタデータリフレッシュ:refreshコマンドをたたかなくても良い(重要w)
  • Trevni対応(あれ?RCFileの話題がない…)
  • (続きを読む)

Posted in Uncategorized

続)Cloudera Impala 情報 (9)

Impala情報 2012/12/6版

Daily update

  1. An Introduction to Impala – Low Latency Queries for Apache Hadoop 作者 Marcelのプレゼン動画 (52min)
  2. Chigago Hadoop User Groupでの動画。slideshareの資料はこちら (Slideshare)

  3. Incompatible Change Introduced in Version 0.3 of the Cloudera Impala Beta Release 2012/12/5に公開されたbeta3情報
  4. 2〜4週間毎に公開されるImpalaのbeta3に関する情報

雑記

同時にCloudera Manager 4.1.2 も更新されたので、手元の実験環境を両方ともアップデートしました。yumは便利ですね。

Posted in Uncategorized

Cloudera Impala情報(まとめ)

Impalaに関する情報も増えて来たが、Hadoopアドベントカレンダーに備えてここで一旦まとめておく。

Cloudera Impala情報まとめ

Impalaとは

    Cloudera Impalaとは、Apacheライセンスで公開されているオープンソースソフトウェア(OSS)。
    現在はパブリックベータ。2週間に一回程度更新される予定。
    将来的にはCDH(Cloudera’s distribution including Apache Hadoop)の一部になることが予定されている。

    目的はSQLやBIアプリケーションから短時間でインタラクティブな分析を行えるようにすること。つまりはデータサイエンティストなどが低レイテンシでインタラクティブにクエリを行える仕組みを実現する。
    おおざっぱなイメージとしては、Hiveのクエリを短時間で実行できるエンジンと考えると分かり易い。(但し単純なHiveの置き換えのために開発されたものではない)。
    GoogleのDremel、GoogleのF1に影響を受けて開発された。

  • できること
  • HiveQL、Hiveメタストアが利用可能。Hiveとの親和性が高い
    低レイテンシでのクエリ(Hiveに比較して数倍〜数十倍速い。※データセットの量とクエリに依存)
    ODBCでの操作(制限あり)

  • できないこと
  • Hive UDF, SerDe
    耐障害性
    DDL
    など、現状はRCFile/Trevniが使えないなど、ベータ版による制限も多い

(続きを読む)

Posted in Uncategorized