kernel023

hadoop

Hadoop is Dead. Long live Hadoop の所感

数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフ...
Kudu

Apache Kuduを10分で試す(3) Spark編

Apache Kuduを10分で試すシリーズの3回目です。前回のブログに続き、今回は Spark からKuduにデータを書き込むチュートリアルを試してみましょう。 Kudu-Sparkのクイックスタートはこちらから参照...
Kudu

Apache Kuduを10分で試す(2) NiFi編

前回のブログに続き、今回は NiFi からKuduにデータを書き込むチュートリアルを試してみましょう。 NiFiはNSA(国家安全保障局)が開発し、オープンソースとしてApacheに寄贈されたソフトウェアです。複雑なデータフローを...
Kudu

Apache Kuduを10分で試す(1)

このブログでは何度も紹介していますが、Apache Kuduは分散ストレージエンジンです。RDBMSのようなテーブル構造の大量のデータを分散して保持することができます。HDFSとは異なりデータの更新が可能で、列指向でデータを保持して...
CDH6

Cloudera Enterprise 6.3.0 リリース

本日 Cloudera Manager/CDH の最新版である Cloudera Enterprise 6.3.0 がリリースされました。 前のバージョンに比べると緩やかな変更に見えますが、Free IPA対応やKudu...
Kudu

Kudu 1.10.0 での興味深い変更点

今月公開された Kudu 1.10.0、バックアップ/リストアツールが含まれるようになりました。(リリースノート) リリースノートの興味深い手順は次の通り。 バックアップとリストアツール(詳細)Apache Sparkベースで...
hive

Hive on Kuduの対応状況

Apache Hive から Apache Kuduを利用したいという要望 (HIVE-12971) は以前からありましたが、ついに対応されそうです。 アナリティクス用途であれば Impala on Kudu で十分だと...
hdfs

HDFSのスモールファイルの問題のブログ翻訳

HDFSに小さなファイルを溜めるといくつかの問題が生じます。例えば、NameNodeのメモリを大量に消費したり、あるいは分散処理の際のパフォーマンスが劣化します。 この問題の原因、予防、対処法が書かれていたブログ記事の内容がかなり良...
hdfs

HDFS イレイジャーコーディングの性能について

Hadoop 3.x でサポートされたHDFS Erasure Coding (HDFS-EC)ですが、HDFSに利用するストレージの容量を節約することができるため、大量データを持っている方には魅力的です。 一方、原則的に複数ラック...
Kudu

Kuduのパフォーマンスが60倍早くなった!?

週末にKuduの生みの親、Toddが以下のようなツイートをしていました。(XiaomiじゃなくAlipayからのパッチのようです) YCSBというNoSQLでよく利用されるベンチマークで、Kuduのパフォーマンスが〜60...