hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

hdfs

HDFS高可用性記事抄訳

HDFS HA 記事の抄訳 諸般の事情で下記コンテンツを訳したので貼っておきます。 実装 Cloudera ManagerとCDHは、HAの実装にクォーラムベースのストレージをサポートしています。 クォーラムベースのストレージとは、QJM...
hue

Hue 2019年情報

このブログは「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2019」の23日目の記事です。 先日Hueのプロジェクト...
hadoop

Hadoop is Dead. Long live Hadoop の所感

数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフ...
Kudu

Apache Kuduを10分で試す(3) Spark編

Apache Kuduを10分で試すシリーズの3回目です。前回のブログに続き、今回は Spark からKuduにデータを書き込むチュートリアルを試してみましょう。 Kudu-Sparkのクイックスタートはこちらから参照...
Kudu

Apache Kuduを10分で試す(2) NiFi編

前回のブログに続き、今回は NiFi からKuduにデータを書き込むチュートリアルを試してみましょう。 NiFiはNSA(国家安全保障局)が開発し、オープンソースとしてApacheに寄贈されたソフトウェアです。複雑なデータフローを...
Kudu

Apache Kuduを10分で試す(1)

このブログでは何度も紹介していますが、Apache Kuduは分散ストレージエンジンです。RDBMSのようなテーブル構造の大量のデータを分散して保持することができます。HDFSとは異なりデータの更新が可能で、列指向でデータを保持して...
CDH6

Cloudera Enterprise 6.3.0 リリース

本日 Cloudera Manager/CDH の最新版である Cloudera Enterprise 6.3.0 がリリースされました。 前のバージョンに比べると緩やかな変更に見えますが、Free IPA対応やKudu...
Kudu

Kudu 1.10.0 での興味深い変更点

今月公開された Kudu 1.10.0、バックアップ/リストアツールが含まれるようになりました。(リリースノート) リリースノートの興味深い手順は次の通り。 バックアップとリストアツール(詳細)Apache Sparkベースで...
hive

Hive on Kuduの対応状況

Apache Hive から Apache Kuduを利用したいという要望 (HIVE-12971) は以前からありましたが、ついに対応されそうです。 アナリティクス用途であれば Impala on Kudu で十分だと...
hdfs

HDFSのスモールファイルの問題のブログ翻訳

HDFSに小さなファイルを溜めるといくつかの問題が生じます。例えば、NameNodeのメモリを大量に消費したり、あるいは分散処理の際のパフォーマンスが劣化します。 この問題の原因、予防、対処法が書かれていたブログ記事の内容がかなり良...