hadoop

Apache Hadoop誕生9周年

Apache Hadoopは9歳に! Apache Hadoopが登場したのが2006年4月1日なので、本日が9周年のようです。Hadoop誕生7周年のブログを書いてから、あっという間に2年も過ぎていました。 さらに、今日はApache S...
hue

Hueの最新版をビルドする

以前、ソースコードからHueをビルドしたことがあります。(Hue 3.5をビルドする) その後はパッケージ版の機能で満足していたのですが、本日gethue.comで公開されたブログで「数分でHueの開発をMacで始める!」という内容だったの...
hdfs

HDFSが変わる?HDFSのイレイジャーコーディング対応

Hadoopの分散ファイルシステムであるHDFSはビッグデータ用のストレージ用に広く利用され、ビッグデータにおけるファイルシステムのデファクトスタンダードになっていると言っても過言ではありません。最近では暗号化の対応やアクセス制御(ACL)...
MapReduce

YARN/MapReduce v2のチューニング

Tuning the Cluster for MapReduce v2 (YARN) 良いYARN/MapReduce v2のチューニングドキュメントがあったので共有。 抜粋すると、24core/256GBのワーカーノードを例にして、HD...
impala

Impala Cookbook (非公式)日本語版 (4) Impalaのベンチマーク

先日のImpala Cookbookの非公式日本語版の続きです。先日は「クラスタのサイジングと推奨ハードウェアImpalaのメモリ使用量」でした。本日は「Impalaのベンチマーク」です。 ベンチマークも取り方によっては全く意味がありません...
hdfs

HDFSのリカバリについてのブログ記事

先日HDFSのリカバリについてのブログ記事(英語)が公開されていたのですが、その翻訳版が公開されました。 HDFSのリースリカバリ、ブロックリカバリ、およびパイプラインリカバリ動作詳解 (その1) これは象本にも記載されていないような話...
hive

Hive on Spark のベータ版!

Hive on Spark 寝る間際に見てしまった、「Download the Hive-on-Spark Beta」という文字。 下記のClouderaのブログによれば、Cloudera ManagerからHive on Sparkがセッ...
HBase

祝! HBase 1.0.0 リリース

ツイートで知りましたが、2011/1にHBase 0.90がリリースされて4年、ついにHBase 1.0.0がリリースされました!
kafka

(続)Apache Kafkaを試す

(2015/2/19追記: 解決したので更新しました) ※VMのダウンロード時間、展開時間、その他を含めると2時間49分ぐらいかかるもしれませんが、、、(笑 CDHにKafkaが追加 さて、本日アナウンスがありましたが、CDHのコンポーネン...
impala

Impala Cookbook (非公式)日本語版 (3) クラスタのサイジングと推奨ハードウェア

昨日のImpala Cookbookの非公式日本語版の続きです。昨日は「Impalaのメモリ使用量」でした。本日は「クラスタのサイジングと推奨ハードウェア」です。 Impala 2.0からメモリが足りない場合にディスクにスピルすることができ...