kernel023

その他

「データ指向アプリケーションデザインガイド」日本語版!

オライリーさんから表記の書籍が出版されます。 「Designing Data‑Intensive Applications」の翻訳本です。原書は非常に良い本ですし、翻訳も玉川さんなので、はっきり言って「買い」かと。 なお、発売は7/...
CDH6

Cloudera Enterprise 6.2 リリース

Cloudera Enterprise 6.2 released! 先週末に Cloudera Enterprise 6.2 がリリースされました。 ほとんどリリースノートを見た範囲のみですが、個人的に興味深いアップデートを一覧して...
hdfs

HDFSのワーカーのタイムアウト時間 10分30秒

備忘録がてら貼っておく。 NameNodeとDataNodeのタイムアウト時間 HDFSでは、DataNodeが定期的にNameNodeにハートビート通信を行なっています。DataNodeからのハートビートが一定時間途絶えると、Name...
impala

Impala 3.2 がリリースされました

本日 Apache Impala 3.2 がリリースされました。 新機能 今回は大きな機能追加はないようですが、テクニカルプレビューの Automatic Metadata Sync using Hive Met...
HBase

HBase 2.x でのテーブルエクスポート

HBaseのエクスポート機能 HBase にはバックアップを取る方法がいくつか存在しますが、その一つにテーブルをファイル(SequenceFile 形式)にエクスポートする機能があります。この機能を用いてテーブルをバックアップしておき、イ...
入門

書籍情報: Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale 1st Edition

新年明けましておめでとうございます。 新年早々にClouderaとHortonworksが合併というニュースがありましたが、引き続き頑張りますので今年もよろしくお願いいたします。 さて、年末に何冊か技術書を積読リストに入れていた...
pig

Pig on Spark を試す

CDH6.x では公式にサポートされていませんが、Pig on Spark が動作します。 なぜ今Pig!?という声が... Pig on Spark とは、Apache Spark をApache ...
hive

CSVデータをParquet形式に変換する

昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp...
hue

About Hue in 2018

Distributed computing (Apache Hadoop, Spark, Kafka, ...) Advent Calendar 2018の23日目の記事です 2018年のHue
CDH

CDHとApache Sparkのバージョンの関係

以前「cdh-release-history」というCDHと主要コンポーネントの対応付けをまとめました。 今年はApache Spark 1.xと2.x が、CDH5.xとCDH6.xのバージョンにそれぞれどのように対応されているかに...