pig Pig on Spark を試す CDH6.x では公式にサポートされていませんが、Pig on Spark が動作します。 なぜ今Pig!?という声が... Pig on Spark とは、Apache Spark をApache ... 2018.12.26 pig
hive CSVデータをParquet形式に変換する 昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp... 2018.12.25 hivehueSpark
hue About Hue in 2018 Distributed computing (Apache Hadoop, Spark, Kafka, ...) Advent Calendar 2018の23日目の記事です 2018年のHue 2018.12.23 hue
CDH CDHとApache Sparkのバージョンの関係 以前「cdh-release-history」というCDHと主要コンポーネントの対応付けをまとめました。 今年はApache Spark 1.xと2.x が、CDH5.xとCDH6.xのバージョンにそれぞれどのように対応されているかに... 2018.12.20 CDHCDH5CDH6Spark
CDH6 Cloudera Enterprise 6.1 がリリースされました Cloudera Enterprise 6.1.0 リリース 本日(昨日)Cloudera Enterprise 6.1.0 がリリースされました。このリリースはかなり大きなアップデートが含まれており、6.0リリース時に見送られた重要な内... 2018.12.19 CDH6
その他 サイトを移転しました 契約していたプロバイダーのサービス停止に伴い、サイトを移転しました。 移行前に使っていたWordPressやPHPのバージョンが古く、移行はかなり難航しましたが、ようやく見られる程度になったので公開します。 なお、移転に伴ってテ... 2018.12.14 その他
YARN YARNのリソース管理の秀逸なスライド Hadoopのコンポーネントの一つであるYARNは、HadoopやSpark等の分散処理のリソース管理とスケジューリングを行います。そのスケジューラはプラガブルになっており、次の3種類のポリシーが選択でき、それぞれ詳細に設定できます。 ... 2018.07.26 YARN
入門 Hadoop/Spark/Kafka 等の書籍情報更新! 久しく更新していなかった書籍情報をアップデートしました。 Hadoop, Spark ビッグデータ関連書籍 今回は、Apache Kuduを含め、Spark、Kafkaの書籍情報を追加しました。オライリーさんからはKafkaの日本語版も... 2018.07.25 入門
hadoop ビッグデータ関連書籍もう一冊 アーリーリリース版を読んでみましたが、Hadoop Operations のエンタープライズ版のような趣があります。HadoopオペレーションほどHadoop寄りではないですが、最近の本なので構成を考える方にはお勧め。 Architect... 2018.07.11 hadoop
Kudu O’Reilly から Apache Kudu の書籍が出版されます ついにKudu本が登場! とはいえ、技術的にディープな本ではないので、deep diveな本が欲しい同僚には物足りないようです。Kudu Internal の公開に期待! なお、著者の一人のBrockは以前の同僚で、すごく優秀なエンジニ... 2018.07.11 Kudu