hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

未分類

続)Cloudera Impala 情報

Cloudera Impala情報まとめ 夜中に投稿したツイートがImpalaと共に駆け抜けて行ってしまったので、個人用にまとめておきます。頻繁にアップデートしているので更新履歴は最下部をご覧下さい。(11/05更新) Hadoop Wor...
未分類

Cloudera Impala インストール時の注意事項

Cloudera Impalaのインストール Cloudera Impalaのインストールは マニュアル Cloudera Manager経由 のいずれかで行うことが可能です。 後者の方がImpalaをインストール/実行は簡単ですが...
未分類

impaladが使用するポート番号

*この情報は未検証なので、確認ができたらアップデートします* Impaladが起動しないというツイートを見かけたので調査してみました。 Impaladを起動する際にNameNodeのポート番号を指定する必要があります。 リリースノートによる...
未分類

impala速攻レビュー!!

米国で開催されている Strata Conf + Hadoop World 2012 で、ついに Cloudera Impala(Public Beta) が発表されました! Impalaとは? Cloudera Impala (はオープン...
未分類

CDH4の仮想マシンをCDH4.1にアップデート

本日CDH4.1 (Cloudera's Distribution including Apache Hadoop) がリリースされました。(*1) 今回のリリースでは NameNode-HAの編集ログがQuorumベースのストレージ領...
未分類

CDHでHadoopを開始するには

巷の書籍/ウェブサイトをみると、Hadoopの開始には start-all.sh を使用するように書かれていることが多いですが、CDHをパッケージからインストールした場合に上記のコマンドの実行は必須ではありません。 例えばRHEL/Cent...
未分類

JobTracker Recovery

CDH3u5ではJobTracker Recovery機能に対応しています。 この機能は、MapReduceでジョブを実行中にJobTrackerに障害が発生した場合、JobTrackerの再起動後に該当するジョブをリカバリしてくれると...
未分類

HDFSのディスク使用量表示の謎

HadoopのHDFSの使用量をコマンドラインから確認するには、 hadoop fsck / hadoop dfsadmin -report などを使用する方法があります。ところが、これらのツールで表示される結果が少し異なって表示さ...
MapReduce

MapReduceの中間データを保持する

MapReduceでジョブの実行時に生成される中間データは、ジョブの終了時に削除されます。これにより不要なデータは削除され、ディスク容量が圧迫されることがなくなります。 しかし、デバッグのために中間データを保持しておきたいと言うこともあるで...
未分類

Hadoopデーモンの設定を表示する

Hadoopの各デーモンにはwebuiがありますが、オプションを渡すことにより、稼働中のデーモンの設定を表示することができます。 JobTrackerでの例: スクリーンショット webUIから表示できるのは意外と知られていないような気...