Uncategorized

続)Cloudera Impala 情報(2)

Cloudera Impala情報まとめ2 個人的に気になるCloudera Impalaのまとめ。公式ページ、ニュースなどは)続 Cloudera Impala 情報をご覧下さい。別途整理して固定ページにする予定です。 みんなの検証結果 ...
未分類

続)Cloudera Impala 情報

Cloudera Impala情報まとめ 夜中に投稿したツイートがImpalaと共に駆け抜けて行ってしまったので、個人用にまとめておきます。頻繁にアップデートしているので更新履歴は最下部をご覧下さい。(11/05更新) Hadoop Wor...
未分類

Cloudera Impala インストール時の注意事項

Cloudera Impalaのインストール Cloudera Impalaのインストールは マニュアル Cloudera Manager経由 のいずれかで行うことが可能です。 後者の方がImpalaをインストール/実行は簡単ですが...
未分類

impaladが使用するポート番号

*この情報は未検証なので、確認ができたらアップデートします* Impaladが起動しないというツイートを見かけたので調査してみました。 Impaladを起動する際にNameNodeのポート番号を指定する必要があります。 リリースノートによる...
未分類

impala速攻レビュー!!

米国で開催されている Strata Conf + Hadoop World 2012 で、ついに Cloudera Impala(Public Beta) が発表されました! Impalaとは? Cloudera Impala (はオープン...
未分類

CDH4の仮想マシンをCDH4.1にアップデート

本日CDH4.1 (Cloudera's Distribution including Apache Hadoop) がリリースされました。(*1) 今回のリリースでは NameNode-HAの編集ログがQuorumベースのストレージ領...
未分類

CDHでHadoopを開始するには

巷の書籍/ウェブサイトをみると、Hadoopの開始には start-all.sh を使用するように書かれていることが多いですが、CDHをパッケージからインストールした場合に上記のコマンドの実行は必須ではありません。 例えばRHEL/Cent...
未分類

JobTracker Recovery

CDH3u5ではJobTracker Recovery機能に対応しています。 この機能は、MapReduceでジョブを実行中にJobTrackerに障害が発生した場合、JobTrackerの再起動後に該当するジョブをリカバリしてくれると...
未分類

HDFSのディスク使用量表示の謎

HadoopのHDFSの使用量をコマンドラインから確認するには、 hadoop fsck / hadoop dfsadmin -report などを使用する方法があります。ところが、これらのツールで表示される結果が少し異なって表示さ...
MapReduce

MapReduceの中間データを保持する

MapReduceでジョブの実行時に生成される中間データは、ジョブの終了時に削除されます。これにより不要なデータは削除され、ディスク容量が圧迫されることがなくなります。 しかし、デバッグのために中間データを保持しておきたいと言うこともあるで...