hdfs HDFSのスモールファイルの問題のブログ翻訳 HDFSに小さなファイルを溜めるといくつかの問題が生じます。例えば、NameNodeのメモリを大量に消費したり、あるいは分散処理の際のパフォーマンスが劣化します。 この問題の原因、予防、対処法が書かれていたブログ記事の内容がかなり良... 2019.07.04 hdfs
hdfs HDFS イレイジャーコーディングの性能について Hadoop 3.x でサポートされたHDFS Erasure Coding (HDFS-EC)ですが、HDFSに利用するストレージの容量を節約することができるため、大量データを持っている方には魅力的です。 一方、原則的に複数ラック... 2019.06.11 hdfs
Kudu Kuduのパフォーマンスが60倍早くなった!? 週末にKuduの生みの親、Toddが以下のようなツイートをしていました。(XiaomiじゃなくAlipayからのパッチのようです) YCSBというNoSQLでよく利用されるベンチマークで、Kuduのパフォーマンスが〜60... 2019.06.10 Kudu
impala HuluでImpala MPPのクエリエンジンであるApache Impalaは、CSVなどのテキストフォーマットも扱えますが、高速な処理を行う場合はParquetを使用することが多いです。(あるいはApache Kuduを利用することも可能) Hulu ... 2019.06.03 impala
cloudera ClouderaのHadoop管理者向けトレーニング ver UP ClouderaのHadoop管理者向けトレーニングがアップデートされました。 この内容を4日間でやるのは時間が足りないぐらいですが、管理者に必要な要素が満載です。 テキストは700ページ超え! ... 2019.05.30 clouderahadoop
その他 「データ指向アプリケーションデザインガイド」日本語版! オライリーさんから表記の書籍が出版されます。 「Designing Data‑Intensive Applications」の翻訳本です。原書は非常に良い本ですし、翻訳も玉川さんなので、はっきり言って「買い」かと。 なお、発売は7/... 2019.05.27 その他
CDH6 Cloudera Enterprise 6.2 リリース Cloudera Enterprise 6.2 released! 先週末に Cloudera Enterprise 6.2 がリリースされました。 ほとんどリリースノートを見た範囲のみですが、個人的に興味深いアップデートを一覧して... 2019.04.02 CDH6
hdfs HDFSのワーカーのタイムアウト時間 10分30秒 備忘録がてら貼っておく。 NameNodeとDataNodeのタイムアウト時間 HDFSでは、DataNodeが定期的にNameNodeにハートビート通信を行なっています。DataNodeからのハートビートが一定時間途絶えると、Name... 2019.03.29 hdfs
impala Impala 3.2 がリリースされました 本日 Apache Impala 3.2 がリリースされました。 新機能 今回は大きな機能追加はないようですが、テクニカルプレビューの Automatic Metadata Sync using Hive Met... 2019.03.29 impala
HBase HBase 2.x でのテーブルエクスポート HBaseのエクスポート機能 HBase にはバックアップを取る方法がいくつか存在しますが、その一つにテーブルをファイル(SequenceFile 形式)にエクスポートする機能があります。この機能を用いてテーブルをバックアップしておき、イ... 2019.01.28 HBase