Hadoop入門

Featured

hadoop-logoようこそ Tech blogへ!これからHadoopを勉強しよう、という方の訪問が多いようなので、そのような方はまず下記のページからどうぞ。

ビッグデータ関連書籍もう一冊

アーリーリリース版を読んでみましたが、Hadoop Operations のエンタープライズ版のような趣があります。HadoopオペレーションほどHadoop寄りではないですが、最近の本なので構成を考える方にはお勧め。

Architecting Modern Data Platforms

A Guide to Enterprise Hadoop at Scale

http://shop.oreilly.com/product/0636920054825.do

O’Reilly から Apache Kudu の書籍が出版されます

ついにKudu本が登場!

とはいえ、技術的にディープな本ではないので、deep diveな本が欲しい同僚には物足りないようです。Kudu Internal の公開に期待!

なお、著者の一人のBrockは以前の同僚で、すごく優秀なエンジニアです。

HBase 2.0 のシェルコマンド

メモ:HBase 2.0 の HBase シェルのヘルプ。以前のバージョンと比べて使えるコマンドが増えている。

hbase(main):001:0> help
HBase Shell, version 2.0.0-cdh6.xxxxxxxxx
Type 'help "COMMAND"', (e.g. 'help "get"' -- the quotes are necessary) for help on a specific command.
Commands are grouped. Type 'help "COMMAND_GROUP"', (e.g. 'help "general"') for help on a command group.

COMMAND GROUPS:
  Group name: general
  Commands: processlist, status, table_help, version, whoami

  Group name: ddl
  Commands: alter, alter_async, alter_status, create, describe, disable, disable_all, drop, drop_all, enable, enable_all, exists, get_table, is_disabled, is_enabled, list, list_regions, locate_region, show_filters

  Group name: namespace
  Commands: alter_namespace, create_namespace, describe_namespace, drop_namespace, list_namespace, list_namespace_tables

  Group name: dml
  Commands: append, count, delete, deleteall, get, get_counter, get_splits, incr, put, scan, truncate, truncate_preserve

  Group name: tools
  Commands: assign, balance_switch, balancer, balancer_enabled, catalogjanitor_enabled, catalogjanitor_run, catalogjanitor_switch, cleaner_chore_enabled, cleaner_chore_run, cleaner_chore_switch, clear_block_cache, clear_compaction_queues, clear_deadservers, close_region, compact, compact_rs, compaction_state, flush, is_in_maintenance_mode, list_deadservers, major_compact, merge_region, move, normalize, normalizer_enabled, normalizer_switch, split, splitormerge_enabled, splitormerge_switch, trace, unassign, wal_roll, zk_dump

  Group name: replication
  Commands: add_peer, append_peer_namespaces, append_peer_tableCFs, disable_peer, disable_table_replication, enable_peer, enable_table_replication, get_peer_config, list_peer_configs, list_peers, list_replicated_tables, remove_peer, remove_peer_namespaces, remove_peer_tableCFs, set_peer_bandwidth, set_peer_exclude_namespaces, set_peer_exclude_tableCFs, set_peer_namespaces, set_peer_replicate_all, set_peer_tableCFs, show_peer_tableCFs, update_peer_config

  Group name: snapshots
  Commands: clone_snapshot, delete_all_snapshot, delete_snapshot, delete_table_snapshots, list_snapshots, list_table_snapshots, restore_snapshot, snapshot

  Group name: configuration
  Commands: update_all_config, update_config

  Group name: quotas
  Commands: list_quota_snapshots, list_quota_table_sizes, list_quotas, list_snapshot_sizes, set_quota

  Group name: security
  Commands: grant, list_security_capabilities, revoke, user_permission

  Group name: procedures
  Commands: abort_procedure, list_locks, list_procedures

  Group name: visibility labels
  Commands: add_labels, clear_auths, get_auths, list_labels, set_auths, set_visibility

  Group name: rsgroup
  Commands: add_rsgroup, balance_rsgroup, get_rsgroup, get_server_rsgroup, get_table_rsgroup, list_rsgroups, move_namespaces_rsgroup, move_servers_namespaces_rsgroup, move_servers_rsgroup, move_servers_tables_rsgroup, move_tables_rsgroup, remove_rsgroup, remove_servers_rsgroup

Cloudera Enterprise 6 beta で Erasure Coding を試してみる

Hadoop 3.0 で導入された HDFS  Erasure Coding を Cloudera Enterprise 6.0 beta の環境で試してみました。

HDFSのErasure Coding は、HDFSのブロックの複製とは異なり、大規模環境においてはストレージに必要なコストを削減できる可能性がある技術です。しかし、小さいデータを格納する際は不利になり、ラック障害やImpala、Spark/MapReduceのようなジョブから利用する場合のパフォーマンス面でも注意が必要です。

Erasure Codingについては過去の投稿Clouderaのブログ、公式ページのドキュメントをご覧ください。整理できたら近いうちに何か書くかもしれません。

(続きを読む)

Cloudera Enterprise 6 (beta) インストール

Cloudera Enteprise 6 beta

先月検証したまま放置していましたが、Cloudera Enteprise 6 public beta をインストールしたのでメモ書きです。

Cloudera Enterprise 6 のページからβプログラムに参加すると、ダウンロードのリンクなどが送られてきます。日本語版もあるのでそれに従ってインストーラをダウンロードしてください。

(続きを読む)

Cloudera Enterprise 6 Beta リリース!

Hadoop 3系がリリースされ、CDH5のリリースから4年が経過した今、Cloudera Enterprise 6のβ版が公開されたようです。「CDH6」という名称の方がわかりやすいかもしれませんね。

Cloudera Etnerprise 6 のページを見ると、コンポーネントのバージョンが更新されています。

  • Cloudera Manager 6
  • Cloudera Director 6
  • Cloudera Navigator6

OSSのコンポーネントのバージョンも(プロジェクトによっては)かなり変わりそうですね。

  • Apache Hadoop 3.0
  • Apache Hive 2.1
  • Apache HBase 2.1
  • Apache Oozie 5.0
  • Apache Avro 1.8
  • Apache Parquet 1.9
  • Apache Sentry 2.0
  • Apache Kafka 1.0
  • Apache Solr 7.0
  • Apache Spark 2.2

以下のリンクにある情報の方が良さそうです。(ただ、Impala 3.9というのは間違いでしょ…)

https://www.cloudera.com/documentation/enterprise/6/release-notes/topics/rg_cdh_60_packaging.htmll

時間をとって検証してみよう。

Apache Spark 2.xでKuduを利用する

以前のブログ(Apache SparkでApache Kuduを利用する)の Spark2.x版です。前回のブログからあまり変わっていませんが、前回のブログの手順はSpark2.xで動作しなかったという話を聞いたのでアップデートしておきます。

なお、昨日 Kudu 1.7 がリリースされました!今回の特徴は

  • (ついに)DECIMAL型をサポート!
  • 可用性とパフォーマンスの改善

などです。

(続きを読む)

Apache Hadoop 3.0.0 リリース

(2017/12/15更新)

本日 Apache Hadoop v3.0.0 が GA になりました!

https://blogs.apache.org/foundation/entry/the-apache-software-foundation-announces26

ハイライトは下記の通り(上記サイトから抜粋して翻訳)

  • HDFS のイレイジャーコーディング — データの耐久性を向上させながらHDFSのストレージコストを軽減
  • YARN Timeline Service v.2 (プレビュー) —タイムラインサービスのスケーラビリティ、信頼性、ユーザービリティを向上
  • YARN リソースタイプ —機械学習やコンテナワークロードとのより良い統合を行うため、ディスクとGPUなどの追加リソースのスケジューリングを有効に。(訳注:今まではCPUとメモリのみ)
  • YARN と HFDS サブクラスターのフェデレーションは、数万台のマシンで Hadoop を透過的にスケール
  • Opportunistic (オポチュニスティック?)コンテナの実行により、短命(短時間)のコンテナのリソース使用率の改善とタスクスループットが向上。従来のcentral (中央?)スケジューラーに加え、YARN は opportunistic コンテナの分散スケジュールもサポート
  • Amazon S3 (S3Gurarrd)、Microsoft Azure Data Lake、Aliyun オブジェクトストレージシステムなどのクラウドストレージシステムの機能とパフォーマンスが向上

HDFSのイレイジャーコーディングに加え、YARNにもいろいろな機能が増えているようで楽しみですね

Update: Hadoop 3.0.0 のドキュメントが公開されています

http://hadoop.apache.org/docs/r3.0.0/

ビッグデータ用のデータ管理ツール

先日開催された Cloudera World Tokyo 2017 にて、「Clouderaが提供するエンタープライズ向け運用、データ管理ツールの最新情報の使い方」というセッションで講演させていただきました。セッション申し込みが200名超(汗)と緊張感がありましたが、以下がその内容です。

(続きを読む)