hadoop-logo
ようこそ Tech blogへ!
「これからHadoopを勉強しよう」という方はまず下記のページから

サイトの移行に伴って画像が表示されないなどの不具合が生じています

hive

hive

CSVデータをParquet形式に変換する

昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp...
hive

RDBMSからSqoopを用いてParquet形式でデータを取り込む

Hadoop上、または SQL on Hadoopで分析を行う場合、テキストファイル(CSVやJSONなど)をそのまま使うとパフォーマンス的に不利になる場合が多いです。(ファイルから改行文字や区切り文字を探して都度都度処理をすれば、当然遅く...
hive

CDH 5.4でHive on Sparkを試す

Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveか...
hive

Hue 3.8の新しい機能

最近いくつかのブログ記事を翻訳しましたが、Hadoop用のデファクトスタンダードなGUIであるHue、新しいバージョンのHue 3.8は素晴らしいものになりそうです。 Hueのブログページ(日本語) Hue 3.8の機能(日本語のブログか...
hive

Hive on Spark のベータ版!

Hive on Spark 寝る間際に見てしまった、「Download the Hive-on-Spark Beta」という文字。 下記のClouderaのブログによれば、Cloudera ManagerからHive on Sparkがセッ...
hive

祝!Hive 1.0.0 リリース

本日、Apache Hive 1.0.0 がリリースされました。ダウンロードはこちら -> 下記のブログからいくつか抜粋してみます
hadoop

Hadoopのいろんな言語でwordcount(1)

Hadoop関連(全部俺) Advent Calendar 2014:14日目の記事です Apache Crunchを少し調べたついでに、Hadoopでいろんな言語を用いてwordcountを実行してみました。まずはMapReduce, H...
hive

2014年版 Hadoopを10分で試す(5) まずはHiveから(後編)

Hadoop関連(全部俺) Advent Calendar 2014:13日目の記事です #既に10分を超えてしまったかもしれませんが、、、 昨日はHiveが使用するメタストアについて紹介しました。テーブルは作成されていますが、まだデータが...
hive

2014年版 Hadoopを10分で試す(4) まずはHiveから(中編)

Hadoop関連(全部俺) Advent Calendar 2014:12日目の記事です 昨日はHueからHiveを使ってクエリを行いました。Hiveでのクエリの実行時には間接的にMapReduceのジョブが実行されています。CDH5ならM...
hive

2014年版 Hadoopを10分で試す(3) まずはHiveから(前編)

Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)...