hdfs HDFS高可用性記事抄訳 HDFS HA 記事の抄訳 諸般の事情で下記コンテンツを訳したので貼っておきます。 実装 Cloudera ManagerとCDHは、HAの実装にクォーラムベースのストレージをサポートしています。 クォーラムベースのストレージとは、QJM... 2020.01.14 hdfs
hue Hue 2019年情報 このブログは「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2019」の23日目の記事です。 先日Hueのプロジェクト... 2019.12.23 hue
hadoop Hadoop is Dead. Long live Hadoop の所感 数年前から「Hadoopは終わった」と言われることがあります。 厳密なHadoopの定義は Apache Hadoop プロジェクトを指しますが、現在では異なる意味で使われていることも多いです。では、Hadoopは時代と共に消えたソフ... 2019.09.11 hadoopその他
Kudu Apache Kuduを10分で試す(3) Spark編 Apache Kuduを10分で試すシリーズの3回目です。前回のブログに続き、今回は Spark からKuduにデータを書き込むチュートリアルを試してみましょう。 Kudu-Sparkのクイックスタートはこちらから参照... 2019.08.30 KuduSpark未分類
Kudu Apache Kuduを10分で試す(2) NiFi編 前回のブログに続き、今回は NiFi からKuduにデータを書き込むチュートリアルを試してみましょう。 NiFiはNSA(国家安全保障局)が開発し、オープンソースとしてApacheに寄贈されたソフトウェアです。複雑なデータフローを... 2019.08.20 KuduNiFiSpark
Kudu Apache Kuduを10分で試す(1) このブログでは何度も紹介していますが、Apache Kuduは分散ストレージエンジンです。RDBMSのようなテーブル構造の大量のデータを分散して保持することができます。HDFSとは異なりデータの更新が可能で、列指向でデータを保持して... 2019.08.09 Kudu
CDH6 Cloudera Enterprise 6.3.0 リリース 本日 Cloudera Manager/CDH の最新版である Cloudera Enterprise 6.3.0 がリリースされました。 前のバージョンに比べると緩やかな変更に見えますが、Free IPA対応やKudu... 2019.08.01 CDH6
Kudu Kudu 1.10.0 での興味深い変更点 今月公開された Kudu 1.10.0、バックアップ/リストアツールが含まれるようになりました。(リリースノート) リリースノートの興味深い手順は次の通り。 バックアップとリストアツール(詳細)Apache Sparkベースで... 2019.07.31 Kudu
hive Hive on Kuduの対応状況 Apache Hive から Apache Kuduを利用したいという要望 (HIVE-12971) は以前からありましたが、ついに対応されそうです。 アナリティクス用途であれば Impala on Kudu で十分だと... 2019.07.30 hiveKudu
hdfs HDFSのスモールファイルの問題のブログ翻訳 HDFSに小さなファイルを溜めるといくつかの問題が生じます。例えば、NameNodeのメモリを大量に消費したり、あるいは分散処理の際のパフォーマンスが劣化します。 この問題の原因、予防、対処法が書かれていたブログ記事の内容がかなり良... 2019.07.04 hdfs