impala

Impala Cookbookが2017年版に更新されています

Impalaを使う人なら必見の「The Impala Cookbook」(slideshare)が更新されています。要チェックや。
Kudu

Quickstart VMでKuduを試してみる

Cloudera Enterprise 5.10でついにApache Kuduがサポート対象になりました。ちょっと触ってみたい方向けに Qiita に記事を書いたので興味があればご覧ください。 Cloudera Enterprise 5.1...
Spark

SparkのWeb UIを調べてみた

SparkのWeb UIに記載されている項目の意味について(日本語で)まとまっている情報がなかったのでまとめてみました。(Spark 1.6ベース) Spark 2.xへの対応と、SparkSQL、SparkStreamingは別途記載す...
hue

HUEについてのまとめ 2016年版

(更新: 2018/12/23) 2018年版の記事も書きました 2016年現在、HadoopやHadoopエコシステムを使っているほとんどの方はHue(ヒュー)をご存知でしょう。しかし、過去にHa...
hive

RDBMSからSqoopを用いてParquet形式でデータを取り込む

Hadoop上、または SQL on Hadoopで分析を行う場合、テキストファイル(CSVやJSONなど)をそのまま使うとパフォーマンス的に不利になる場合が多いです。(ファイルから改行文字や区切り文字を探して都度都度処理をすれば、当然遅く...
hue

HueからRDBMSをクエリする

Hueには、SQL on Hadoopとして一般的な、HiveやImpalaにクエリを行うためのクエリエディタが用意されています。最新のHueではクエリエディタが改善され、とても使いやすくなりました。一押しです。 が、今回はクエリエディタ機...
CDH5

Hadoop3.0の新機能!DataNodeディスク間バランサーを試す

DataNodeディスク間バランサー 昨日紹介したHDFSの再バランスは、DataNode間でディスク使用量を平準化するための機能でした。一方で、DataNodeが複数のディスクを持っている場合、それぞれのディスクの使用量のバランスが崩れて...
CDH5

HDFSの再バランス

HDFSには、DataNode間でディスク使用量の再バランスを行う balaner 機能があります。また、Hadoop3.xで導入される予定の、DataNode内のディスク間のリバランス機能(Disk Balancer)もあります。(この機...
HBase

HBase 1.2で導入されたSimpleRegionNormalizerを試してみる

RegionNormalizer 「Distributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016」 の@d1ce_氏による「HBase 1.2で導入されたSim...
CDH5

hdfs dfs で利用できるサブコマンド(3)

hdfs dfs コマンドで利用できるサブコマンドの一覧、その3です。 表のレイアウトがおかしいので近いうちに直します。