CDH5

Cloudera 5.11リリース

Cloudera 5.11が出たので久しぶりの更新です。 Hadoopも11年目を迎え、日本でも幅広い業種で使われるようになりました。数年前と比較すると圧倒的に使いやすくなっているので、過去に評価してそのままになっている方、既存の基盤で困っ...
HBase

CERNで実施したベンチマークが公開されています

CERNが公開した、 「Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較」 を日本語化して公開しました。 Apache Avro, Apache Parquet, Apache HB...
impala

Impala Cookbookが2017年版に更新されています

Impalaを使う人なら必見の「The Impala Cookbook」(slideshare)が更新されています。要チェックや。
Kudu

Quickstart VMでKuduを試してみる

Cloudera Enterprise 5.10でついにApache Kuduがサポート対象になりました。ちょっと触ってみたい方向けに Qiita に記事を書いたので興味があればご覧ください。 Cloudera Enterprise 5.1...
Spark

SparkのWeb UIを調べてみた

SparkのWeb UIに記載されている項目の意味について(日本語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載す...
hue

HUEについてのまとめ 2016年版

(更新: 2018/12/23) 2018年版の記事も書きました 2016年現在、HadoopやHadoopエコシステムを使っているほとんどの方はHue(ヒュー)をご存知でしょう。しかし、過去にHa...
hive

RDBMSからSqoopを用いてParquet形式でデータを取り込む

Hadoop上、または SQL on Hadoopで分析を行う場合、テキストファイル(CSVやJSONなど)をそのまま使うとパフォーマンス的に不利になる場合が多いです。(ファイルから改行文字や区切り文字を探して都度都度処理をすれば、当然遅く...
hue

HueからRDBMSをクエリする

Hueには、SQL on Hadoopとして一般的な、HiveやImpalaにクエリを行うためのクエリエディタが用意されています。最新のHueではクエリエディタが改善され、とても使いやすくなりました。一押しです。 が、今回はクエリエディタ機...
CDH5

Hadoop3.0の新機能!DataNodeディスク間バランサーを試す

DataNodeディスク間バランサー 昨日紹介したHDFSの再バランスは、DataNode間でディスク使用量を平準化するための機能でした。一方で、DataNodeが複数のディスクを持っている場合、それぞれのディスクの使用量のバランスが崩れて...
CDH5

HDFSの再バランス

HDFSには、DataNode間でディスク使用量の再バランスを行う balaner 機能があります。また、Hadoop3.xで導入される予定の、DataNode内のディスク間のリバランス機能(Disk Balancer)もあります。(この機...