新!Hadoopを10分で試す(1) CDH5の仮想マシンを使ってみる

**この記事の内容は若干古くなっています。まとめページもご覧下さい**

本日、CDH5 / Cloudera Manager 5に対応した仮想マシンイメージが公開されました。
今まで「Hadoopを10分で試す」シリーズとしてバージョンアップを繰り返してきましたが、ようやく最初から最新バージョン(CDH5)を試せるようになりました。 (続きを読む)

Sparkでワードカウントしてみる

本日Clouderaのブログで、「How-to: Run a Simple Apache Spark App in CDH 5」という記事が公開されました。一言で言えば、Apache SparkでWordCountを実行するというものです。
英語の記事でもそれほどハマるところはないと思いますが、手元にCDH5の環境があるので試してみました。
(続きを読む)

祝!Hadoop 2.4.0 リリース

Hadoop 2.4.0 がリリースされています。

前回から2ヶ月でのリリース。私見ですが、ちょっとリリースの間隔が短すぎじゃないかと思います。Linux Kernelと同じようなリリースサイクルが守られた方が良いと思うんですけどね。いろいろな思惑があるとは思いますが 🙂

詳細はこちら。

http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-common/releasenotes.html

HDFSの新しい機能を確認 (4) – NFSゲートウェイ

以前も書いた通り、最近のHDFSではNFS Gatewayを利用することが可能になっています。

CDH5 ベータ1 のNFSv3ゲートウェイを試してみました

これにより、HDFSプロトコルを知らないレガシーアプリケーション、非Javaな環境、その他からHDFSに読み書きすることができるようになりました。(REST-APIを用いるHttpFSやWebHDFS、Fuse-DFSなどもありますが..) (続きを読む)

HDFSの新しい機能を確認(2) CDH5.0 GAとヘテロジニアス構成

昨日、2014/4/2、CDH 5とCloudera Manager 5がリリースされました。手元の環境をアップデートしたので、いくつかの新しい機能の確認を続けます。

なお前回同様に、CDH5 beta2からのアップデートの際にはHDFSのメタデータの更新が必要です(ついでに言うと、Hiveのメタストアのアップデートも必要でした)。ご注意下さい。 (続きを読む)