Kudu

Docker

HueからImpala+Kuduへの接続を全てDockerで行う

Kudu-ImpalaのDockerイメージを使うと、KuduやImpalaのインストールは不要で、ImpalaからSQLを用いてKuduにクエリを行うことができます。 ImpalaもKuduも、本来は数十〜数百ノードに分散してスケールアウ...
impala

Apache ImpalaからKuduのQuickstart環境を使う(10分で試すシリーズ)

Apache Impala via Kudu Quickstart Environment 以前、Kudu の Quickstart 環境のブログを書きましたが、その時は a) Apache NiFi でデータをKuduに書き込み、b) A...
Kudu

Apache Kuduを10分で試す(3) Spark編

Apache Kuduを10分で試すシリーズの3回目です。前回のブログに続き、今回は Spark からKuduにデータを書き込むチュートリアルを試してみましょう。 Kudu-Sparkのクイックスタートはこちらから参照...
Kudu

Apache Kuduを10分で試す(2) NiFi編

前回のブログに続き、今回は NiFi からKuduにデータを書き込むチュートリアルを試してみましょう。 NiFiはNSA(国家安全保障局)が開発し、オープンソースとしてApacheに寄贈されたソフトウェアです。複雑なデータフローを...
Kudu

Apache Kuduを10分で試す(1)

このブログでは何度も紹介していますが、Apache Kuduは分散ストレージエンジンです。RDBMSのようなテーブル構造の大量のデータを分散して保持することができます。HDFSとは異なりデータの更新が可能で、列指向でデータを保持して...
Kudu

Kudu 1.10.0 での興味深い変更点

今月公開された Kudu 1.10.0、バックアップ/リストアツールが含まれるようになりました。(リリースノート) リリースノートの興味深い手順は次の通り。 バックアップとリストアツール(詳細)Apache Sparkベースで...
hive

Hive on Kuduの対応状況

Apache Hive から Apache Kuduを利用したいという要望 (HIVE-12971) は以前からありましたが、ついに対応されそうです。 アナリティクス用途であれば Impala on Kudu で十分だと...
Kudu

Kuduのパフォーマンスが60倍早くなった!?

週末にKuduの生みの親、Toddが以下のようなツイートをしていました。(XiaomiじゃなくAlipayからのパッチのようです) YCSBというNoSQLでよく利用されるベンチマークで、Kuduのパフォーマンスが〜60...
Kudu

O’Reilly から Apache Kudu の書籍が出版されます

ついにKudu本が登場! とはいえ、技術的にディープな本ではないので、deep diveな本が欲しい同僚には物足りないようです。Kudu Internal の公開に期待! なお、著者の一人のBrockは以前の同僚で、すごく優秀なエンジニ...
Kudu

Apache Spark 2.xでKuduを利用する

以前のブログ(Apache SparkでApache Kuduを利用する)の Spark2.x版です。前回のブログからあまり変わっていませんが、前回のブログの手順はSpark2.xで動作しなかったという話を聞いたのでアップデートしておきます...