Kudu

Kudu

Apache Kuduを10分で試す(3) Spark編

Apache Kuduを10分で試すシリーズの3回目です。前回のブログに続き、今回は Spark からKuduにデータを書き込むチュートリアルを試してみましょう。 Kudu-Sparkのクイックスタートはこちらから参照...
Kudu

Apache Kuduを10分で試す(2) NiFi編

前回のブログに続き、今回は NiFi からKuduにデータを書き込むチュートリアルを試してみましょう。 NiFiはNSA(国家安全保障局)が開発し、オープンソースとしてApacheに寄贈されたソフトウェアです。複雑なデータフローを...
Kudu

Apache Kuduを10分で試す(1)

このブログでは何度も紹介していますが、Apache Kuduは分散ストレージエンジンです。RDBMSのようなテーブル構造の大量のデータを分散して保持することができます。HDFSとは異なりデータの更新が可能で、列指向でデータを保持して...
Kudu

Kudu 1.10.0 での興味深い変更点

今月公開された Kudu 1.10.0、バックアップ/リストアツールが含まれるようになりました。(リリースノート) リリースノートの興味深い手順は次の通り。 バックアップとリストアツール(詳細)Apache Sparkベースで...
hive

Hive on Kuduの対応状況

Apache Hive から Apache Kuduを利用したいという要望 (HIVE-12971) は以前からありましたが、ついに対応されそうです。 アナリティクス用途であれば Impala on Kudu で十分だと...
Kudu

Kuduのパフォーマンスが60倍早くなった!?

週末にKuduの生みの親、Toddが以下のようなツイートをしていました。(XiaomiじゃなくAlipayからのパッチのようです) YCSBというNoSQLでよく利用されるベンチマークで、Kuduのパフォーマンスが〜60...
Kudu

O’Reilly から Apache Kudu の書籍が出版されます

ついにKudu本が登場! とはいえ、技術的にディープな本ではないので、deep diveな本が欲しい同僚には物足りないようです。Kudu Internal の公開に期待! なお、著者の一人のBrockは以前の同僚で、すごく優秀なエンジニ...
Kudu

Apache Spark 2.xでKuduを利用する

以前のブログ(Apache SparkでApache Kuduを利用する)の Spark2.x版です。前回のブログからあまり変わっていませんが、前回のブログの手順はSpark2.xで動作しなかったという話を聞いたのでアップデートしておきます...
HBase

CERNで実施したベンチマークが公開されています

CERNが公開した、 「Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較」 を日本語化して公開しました。 Apache Avro, Apache Parquet, Apache HB...
Kudu

Quickstart VMでKuduを試してみる

Cloudera Enterprise 5.10でついにApache Kuduがサポート対象になりました。ちょっと触ってみたい方向けに Qiita に記事を書いたので興味があればご覧ください。 Cloudera Enterprise 5.1...