hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

HBase

HBase 2.x でのテーブルエクスポート

HBaseのエクスポート機能 HBase にはバックアップを取る方法がいくつか存在しますが、その一つにテーブルをファイル(SequenceFile 形式)にエクスポートする機能があります。この機能を用いてテーブルをバックアップしておき、イ...
入門

書籍情報: Architecting Modern Data Platforms: A Guide to Enterprise Hadoop at Scale 1st Edition

新年明けましておめでとうございます。 新年早々にClouderaとHortonworksが合併というニュースがありましたが、引き続き頑張りますので今年もよろしくお願いいたします。 さて、年末に何冊か技術書を積読リストに入れていた...
pig

Pig on Spark を試す

CDH6.x では公式にサポートされていませんが、Pig on Spark が動作します。 なぜ今Pig!?という声が... Pig on Spark とは、Apache Spark をApache ...
hive

CSVデータをParquet形式に変換する

昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp...
hue

About Hue in 2018

Distributed computing (Apache Hadoop, Spark, Kafka, ...) Advent Calendar 2018の23日目の記事です 2018年のHue
CDH

CDHとApache Sparkのバージョンの関係

以前「cdh-release-history」というCDHと主要コンポーネントの対応付けをまとめました。 今年はApache Spark 1.xと2.x が、CDH5.xとCDH6.xのバージョンにそれぞれどのように対応されているかに...
CDH6

Cloudera Enterprise 6.1 がリリースされました

Cloudera Enterprise 6.1.0 リリース 本日(昨日)Cloudera Enterprise 6.1.0 がリリースされました。このリリースはかなり大きなアップデートが含まれており、6.0リリース時に見送られた重要な内...
その他

サイトを移転しました

契約していたプロバイダーのサービス停止に伴い、サイトを移転しました。 移行前に使っていたWordPressやPHPのバージョンが古く、移行はかなり難航しましたが、ようやく見られる程度になったので公開します。 なお、移転に伴ってテ...
YARN

YARNのリソース管理の秀逸なスライド

Hadoopのコンポーネントの一つであるYARNは、HadoopやSpark等の分散処理のリソース管理とスケジューリングを行います。そのスケジューラはプラガブルになっており、次の3種類のポリシーが選択でき、それぞれ詳細に設定できます。 ...
入門

Hadoop/Spark/Kafka 等の書籍情報更新!

久しく更新していなかった書籍情報をアップデートしました。 Hadoop, Spark ビッグデータ関連書籍 今回は、Apache Kuduを含め、Spark、Kafkaの書籍情報を追加しました。オライリーさんからはKafkaの日本語版も...