HDFSのfsck

HDFSの不良ブロック

先日、CDH5.4へのアップグレード中に仮想マシンが落ちた際、不良ブロックが大量に発生しました。

Cloudera Managerのヘルステストによると、52の紛失したブロックがあると報告されています。 (続きを読む)

CDH 5.4でHive on Sparkを試す

Hive on Spark (on CDH5.4)

※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。

CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveから、Hiveの実行エンジンとしてSparkが利用できるようになりました。(Hive on Spark [1][2])

[1] https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started
[2] https://issues.apache.org/jira/browse/HIVE-7292

ドキュメントも発見したので早速試してみます。

http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/admin_hos_config.html

(続きを読む)

Cloudera 5.4 (CDH 5.4 + Cloudera Manager 5.4) リリース

Cloudera Enterprise 5.4

表記の通り、Cloudera Enterpriseの新しいバージョン(5.4)が公開されています。日本語のリリースはこちら

今回のリリースは「品質、セキュリティ、パフォーマンス、使いやすさ」の改善にフォーカスしているとのことです。いつものように技術的に興味深い点をピックアップしてみます。

あくまでも個人的に興味があるものだけを抜き出しているので、詳細は5.4のリリースノートImpala 2.2のリリースノートごらんください。

(続きを読む)

Quickstart VMをCloudera 5.4にアップデート(後編)

CDH 5.4

前回はQuickstart VMのCloudera Managerを5.4 にアップデートしたので、本日はCDH 5.4にアップデートしてみましょう。

Quickstart VMで利用できるCloudera Managerは「Express版」という無償版のエディションのため、無停止でアップデートするためのローリングアップグレードには対応していません。従って、ドキュメントの手順に従い、サービスを停止してアップデートすることになります。(Quickstart VMは所詮1ノードですしね、、、本番で使うこともないので停止しても無問題ですが、本番環境の場合は注意が必要です) (続きを読む)

Quickstart VMをCloudera 5.4にアップデート(前編)

Cloudera Enterprise 5.4リリース

昨日Cloudera 5.4がリリースされました。今回のリリースはかなり品質に重視しているバージョンでもあり、エンタープライズで利用されている方は特にアップデートをお勧めします。

ということで、愛用のCloudera Quickstart VM (5.3)をバージョンアップしてみましょう。 (続きを読む)

CDH5系のメンテナンスリリース

CDH5.0.6、CDH5.1.5、CDH5.2.5、CDH5.3.3がリリースされました!

これらのバージョンでは、最近のバージョンのHDFSで修正されたデータロストの問題に対応しています。

一口で説明できないほどかなり複雑な問題で、複数のパッチを適用することで対応がされています。この問題はCDHの問題ではなく、アップストリームでの潜在的な問題のため、該当するバージョンをお使いの方はご注意ください。
http://www.cloudera.co.jp/blog/c533_general_release.html

CDH5系を利用中の方は、早急に以下のバージョンに上げることをお勧めします。CDH4系には影響ありませんが、サポート期間がもうすぐ終了となりますので、ご利用中の方はご注意くださいね

Hue 3.8の新しい機能

最近いくつかのブログ記事を翻訳しましたが、Hadoop用のデファクトスタンダードなGUIであるHue、新しいバージョンのHue 3.8は素晴らしいものになりそうです。

Hueのブログページ(日本語)

http://gethue.com/blog/?lang=ja

Hue 3.8の機能(日本語のブログから抜粋)

例えば上記にある通り、Hue 3.8は Hive 1.1とImapala 2.2に対応する予定です。また、今回のバージョンでクールだと思うのは、個人的にはNoteBook UIかな、、、HiveQLやImpalaのクエリを入力したり、SparkもREPLで入力/実行できるのは素晴らしいです。

Hue 3.8はおそらくCDH5.4に含まれると思うので、きっともうすぐですね

Apache Hadoop誕生9周年

Apache Hadoopは9歳に!

Apache Hadoopが登場したのが2006年4月1日なので、本日が9周年のようです。Hadoop誕生7周年のブログを書いてから、あっという間に2年も過ぎていました。

さらに、今日はApache Sparkが誕生してから5年だそうです。

おめでたいですね〜。花見で一杯にふさわしい。

CDH 5

Cloudera 5.0 (CDH5.0+Cloudera Manager5.0)の公開が昨年の2014/4/2だったので、こちらもちょうど1年が過ぎました。現在の最新は5.3.2ですが、比較的近いうちに5.4も公開されることでしょう。

Hadoopと関連エコシステムの進化はまだ続いています。安定度、信頼性は向上し、低遅延で処理できるようになり、多機能になり、ユーザー向けのGUIもリッチになり、運用管理ツールも充実して、この2年間だけでもかなり変化しています。

エンタープライズ用途での利用も相当増えています。まだ評価もしていないと言う方、数年前に評価したと言う方はそろそろ最新のバージョンで試してみませんか?

次の1年でHadoopはどう進化するのでしょうか?楽しみは尽きませんね!