Hadoop、Spark、ビッグデータ関連書籍

発売予定の書籍も含めたHadoop、Sparkなど関連書籍のまとめです。
オライリーの本を中心に掲載していますが、読んだことがある/手元にある/買おうかなと思っている書籍を中心にまとめているので、全てを網羅しているわけではありません。
当初はブログで公開していましたが、更新が多いので独立したページとしました。(コメントは私見です。素晴らしい書籍ばかりです)

最終更新:2018/10/29

  • 2018/10/29: 日本語版のKafka本2冊追加
  • 2018/7/25: 久々に更新。新しい本を追加。出版されなかった本はそのうち削除します
  • 2017/2/1 Spark: The Definitive Guide、Spark Operations Cookbook、Introduction to Spark Operations、(Spark関連書籍)Hadoop in the Enterprise: Architecture (Hadoop関連)追加
  • 2016/11/18 Moving Hadoop to the Cloud 追加 (Hadoopなど、その他)
  • 2016/10/23 Learning Spark Streaming, Advanced Analytics with Spark 2nd Edition 追加 (Spark関連書籍)
  • 2016/7/8: Programming Pig 2nd Edition リンクを追加 (Hadoopエコシステム関連書籍)
  • ちょっと古めの本は別のページに移動しました

Hadoop関連書籍

 TitleRelease date和書名出版日雑感
picture978-4-87311-629-7Hadoop: The Definitive Guide, 3rd Edition2012/5Hadoop 第3版2013/7言わずと知れたHadoop本のバイブル
rc_catHadoop: The Definitive Guide, 4th Edition2015/3ついに正式版公開!日本語版はいつかな〜。
picture978-4-87311-652-5Hadoop Operations2012/9Hadoopオペレーション2013/11通称パカ本。運用するならこれを読むべき。YARNには対応していないところが少し残念
hop2ndHadoop Operations 2nd edition?ついに書籍情報が掲載。これは期待せざるを得ない(2015/7/6)
... が、未だに公開される気配なし。
rc_cat_aaHadoop Application Architectures 2015/6かなり面白い。おすすめ。日本語にならないかなぁ。。
LHadoop徹底入門 第2版2013/8日本語で読めるHadoop書籍定番の一冊。若干古い
Hadoopクラスター構築実践ガイド2018/5最近出版された古賀さんのHadoop 本。新しい情報が含まれているので基本を押さえるのに良い。
rc_cat_secHadoop Security2015/6今後エンタープライズでの利用が増えるHadoopでのセキュリティトピックは避けられない。
cat_mdMapReduce Design Patterns2012/11MapReduceのデザインパターンを知りたいならこれ?まだあまり読んでない
mrdp2MapReduce Design Patterns2016/10いつの間にか2版も出るらしい
Architecting Modern Data Platforms - A Guide to Enterprise Hadoop at Scale2018/42018/7/25追記
HBase(馬本)のLars、Clouderaの精鋭による書籍。Hadoop Operationsと被っているところがあるが、アーキテクチャー設計などは役立つ
cat_daData Analytics with Hadoop2015/11買ってみたが読んでない
cat_ehEnterprise Hadoop2015/12(予定)2015/1/14追記
MapReduce Design Patternの著者による執筆らしいです
bigdata_for_chimpsBig Data for ChimpsPigの話なども出ているらしい

Hadoop/NoSQL関連書籍

 TitleRelease date和書名出版日雑感
picture978-4-87311-566-5HBase definitive Guide (1st Edition)2011/3HBase2012/7HBase本のバイブル。一番愛用しているかも?
hbase2ndHBase definitive Guide 2nd Edition2017/8予定から3年遅れて正式版が出版されました。1300ページもあります。。鈍器並み
rc_cat_acAccumulo2015/7Google BigTableのNSAによる実装、Accumulo。必要になったら読むが、HBaseのセキュリティが充実てきたので通常の用途なら不要?
LjHBase徹底入門 Hadoopクラスタによる高速データベースの実現CDH5.2.1でHBase0.98に対応。1.0に関する情報もあり新しい。サンプルアプリも充実し、運用からチューニングの話題と豊富。
architecting_hbase_apphttp://shop.oreilly.com/product/0636920035688.do2016/72015/7/6追加。デザインパターンやサイジング、ベストプラクティスなども網羅されるらし。楽しみ。

Hadoopエコシステム関連書籍

NoTitleRelease date和書名出版日雑感
Getting Started with Kudu2018/7OSSカラムナ分散ストレージエンジン、Kuduの書籍がついに出版!
cat_imGetting Started with Impala2014/10MPP SQLエンジンのCloudera Impalaの本。Cloudera Impalaフリーブックの完全版かな?
picture978-4-87311-672-3Cloudera Impala2013/11Cloudera Impala2014/3上記、去年公開されたImpala本のベース?無償でダウンロードできるeBook。
picture978-4-87311-617-4Programming Hive2012/9プログラミング Hive2013/6Hive遣いなら読んでおいた方が良い?
hive2Programming Hive, 2nd Edition?出版されずに終わった模様
cat_pigProgramming Pig2011/9個人的に、日本語書籍がないのは残念。
pig2Programming Pig, 2nd Edition2016/7Pigの2版、アーリーリリースが買えるようになった。Spark登場でユーザー数は減っている!?
picture978-4-87311-662-4Apache Sqoop Cookbook2013/7Apache Sqoop クックブック2014/3日本語は電子書籍版のみ
cat_flumeUsing Flume2014/10KafkaやMorphlineなど、いろいろ勉強のために頑張って読む
rc_cat_oozieApache Oozie2015/52015/5 正式リリース
Oozie本。
practical_hivePractical Hive
2016/10Hive本。読んでいないので詳細は不明

Spark関連書籍

 TitleRelease date和書名出版日雑感
sdgSpark: The Definitive Guide2018/2本命?日本語版が望まれる
cat_lsLearning Spark2015/2初めてのSpark2015/8Spark1系なので若干古いです
Learning PySpark2017/2入門 PySpark
――PythonとJupyterで活用するSpark 2エコシステム
2017/11原書はPacktです。日本語版も!PythonでSpark2を触りたい方の入門としてはいい感じです。
SparkAdvanced Analytics with Spark2015/4Sparkによる実践データ解析2016/1ClouderaのデータサイエンティストチームによるSparkでのクラスタリングや機械学習などのアルゴリズムに関する書籍
aas2ndAdvanced Analytics with Spark 2nd edition2017/6
Advanced Analytics with Sparkの第2版
learning_ssLearning Spark Streaming2017/12Structured Streamingは対応していない(という記憶がある。要確認)
cat_lsHigh Performance Spark2017/5若干古いがSpark2には対応している。良さげです。
socSpark Operations Cookbook2017/7(予定)発刊されず終了?
Introduction to Spark Operations2017/6(予定)発刊されず終了?
catSpark in Action2016/11Spark 2.0にも対応していますが若干古くなった感がある
malak_cover150Spark GraphX in Action2016/6GraphX、どの程度使われているの?
Spark with Java2019秋リリース予定?MEAP(Manning Early Access Program)でプレビュー版が公開されています。まだ買っていないので何とも。
SparkApache Spark入門2015/10/26
sparkdetail詳解 Apache Spark2016/4/29
アプリケーションエンジニアのためのApache Spark入門2018/2/17データ取り込みからMLまでを網羅した良書です。

Hadoopなど、その他

NoTitleRelease date和書名出版日雑感
hadoop_cloud Harnessing Cloud Features and Flexibility for Hadoop Clusters Larger Cover Moving Hadoop to the Cloud2017/7
picture978-4-87311-584-9Mahout in Action2011/10Mahoutイン・アクション2012/10若干バージョンは古いがMahoutの唯一の日本語本。MLlibやOrix本も出ないかしら?ちなみにSpark関連書籍にも機械学習の話題は出てる
picture978-4-87311-671-6Agile Data Science2013/10アジャイルデータサイエンス2014/4Apache Pigの話題などもあります
rc_cat_daData Algorithms2015/7@tamagawa_ryujiさん推薦。これはなかなかヘビーな内容。日本語版の計画があるとか... 楽しみ
data_intensive_appDesigning Data-Intensive Applications2017/3アーリーリリースを斜め読みした感じですが、幅広い技術を扱っていて良さげです。 (2015/7)
kafkaKafka The Definitive Guide2017/8Kafka2018/8日本語版。Kafka徹底入門と両方読むべし
Apache Kafka 分散メッセージングシステムの構築と活用2018/10NTTデータの皆さんによるKafka本
Kafka in Action2019年Early Release公開中。
Kafka Streams in Action2018/8(予定)読んでみるか思案中。Flink、Spark Structured Streamingなど選択肢が沢山ある
Stream Processing with Apache Flink2017/2読んでみたいが手付かず