Hive on Spark のベータ版!

Hive on Spark

寝る間際に見てしまった、「Download the Hive-on-Spark Beta」という文字。

下記のClouderaのブログによれば、Cloudera ManagerからHive on Sparkがセットアップできるとの情報が。

A Hive-on-Spark beta is now available via CDH parcel. Give it a try!」

http://blog.cloudera.com/blog/2015/02/download-the-hive-on-spark-beta/

ドキュメントも用意されています。

http://www.cloudera.com/content/cloudera/en/documentation/hive-spark/latest/PDF/hive-spark-get-started.pdf

さっそく試さなければ!

※本当はセットアップをやりかけたんですが、Parcelの設定がうまくいかなかったのと、ドキュメントの手順が複雑だったので断念。もう3:00AMだし…

(続)Apache Kafkaを試す

(2015/2/19追記: 解決したので更新しました)

※VMのダウンロード時間、展開時間、その他を含めると2時間49分ぐらいかかるもしれませんが、、、(笑

CDHにKafkaが追加

さて、本日アナウンスがありましたが、CDHのコンポーネントにApache Kafkaが加わりました。

kafka_overviewApache Kafkaの公式ページを引用すると、Kafkaは「高スループット分散メッセージシステム(A high-throughput distributed messaging system)」とでも呼べば良いでしょうか。Fast, Scalable, Durable Distributed by Designと記載されています。LinkedInで開発され、既にYahoo!やTwitter、Netflixなど多くの企業で使われています。(リスト (続きを読む)

Impala Cookbook (非公式)日本語版 (3) クラスタのサイジングと推奨ハードウェア

昨日のImpala Cookbookの非公式日本語版の続きです。昨日は「Impalaのメモリ使用量」でした。本日は「クラスタのサイジングと推奨ハードウェア」です。

Impala 2.0からメモリが足りない場合にディスクにスピルすることができるようになっていますが、果たしてどのぐらいメモリを積めば良いのでしょう?

例によって駆け足で日本語化してるので、間違いがあればコメントに書き込むかTwitterでメンションしてください。

原文:
[1] The Impala Cookbook http://www.slideshare.net/cloudera/the-impala-cookbook-42530186

(続きを読む)

Cloudera Impalaの論文 (CIDR 2015)

CIDR 2015にCloudera Impalaの論文、”Impala: A Modern, Open-Source SQL Engine for Hadoop” のPDFスライドが公開されていました。(そういえばVLDBにも掲載されていましたね)

Impalaは単一ユーザが利用したときのクエリも速いんですが、複数ユーザが同時にクエリを実行した場合の速さも抜群です。一般的に一人でクラスタを使用することはないと思うので、複数ユーザがビッグデータを同時に高速に分析したい、と言う用途にも適していますね。

まぁ、速くて文句を言う人はいないと思いますが(笑、詳細は論文をどうぞ。

なお、下記はスライドのP.39からの抜粋。このグラフは10ユーザーからの同時クエリですが、実際にはさらに多くのユーザーからの並列クエリの場合でも良好なパフォーマンスを叩き出します。

impala_multi_user (続きを読む)

Impala Cookbook (非公式)日本語版 (2) メモリ使用量

昨日のImpala Cookbookの非公式日本語版の続きです。昨日は「Impalaの物理設計とスキーマ設計」でした。本日は「Impalaのメモリ使用量」です。

例によって駆け足で日本語化してるので、間違いがあればコメントに書き込むかTwitterでメンションしてください。

原文:
[1] The Impala Cookbook http://www.slideshare.net/cloudera/the-impala-cookbook-42530186

(続きを読む)

Impala Cookbook (非公式)日本語版 (1) 物理設計とスキーマ設計

昨年末に公開された Impala Cookbook、先日新しいバージョンに更新されました。昨年末も雑記を書きましたが、改めて読み直し、日本語でまとめてみました。

駆け足で日本語化したので、間違いがあればコメントに書き込むかTwitterでメンションしてください。

本当はスライド全部を日本語化したいところですが、71ページはチト面倒なのでどうしようか悩む。。

原文:
[1] The Impala Cookbook http://www.slideshare.net/cloudera/the-impala-cookbook-42530186

(続きを読む)