hive Impala, Hive, Presto, Spark のJOINに関するメモ SQL on Hadoop でのJOIN時のテーブルの指定順序と挙動 結合の種類にもよりますが、複数のテーブルを結合する際、一つのテーブルを全てのワーカーノードに転送して行う場合があります。(Broadcast JOIN) もちろん、統計情... 2020.07.29 hiveimpalaprestoSpark
hive Hive on Kuduの対応状況 Apache Hive から Apache Kuduを利用したいという要望 (HIVE-12971) は以前からありましたが、ついに対応されそうです。 アナリティクス用途であれば Impala on Kudu で十分だと... 2019.07.30 hiveKudu
hive CSVデータをParquet形式に変換する 昨日の続きです。読むのが面倒な方は「まとめ」をどうぞ。 OpenCSVSerDeによるCSVデータの扱い 昨日はHueでCSV形式のデータをインポートしましたが、このデータをHive以外から利用するには不便です。 Apache Imp... 2018.12.25 hivehueSpark
hive RDBMSからSqoopを用いてParquet形式でデータを取り込む Hadoop上、または SQL on Hadoopで分析を行う場合、テキストファイル(CSVやJSONなど)をそのまま使うとパフォーマンス的に不利になる場合が多いです。(ファイルから改行文字や区切り文字を探して都度都度処理をすれば、当然遅く... 2016.12.12 hive
hive CDH 5.4でHive on Sparkを試す Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveか... 2015.04.27 hiveSpark
hive Hue 3.8の新しい機能 最近いくつかのブログ記事を翻訳しましたが、Hadoop用のデファクトスタンダードなGUIであるHue、新しいバージョンのHue 3.8は素晴らしいものになりそうです。 Hueのブログページ(日本語) Hue 3.8の機能(日本語のブログか... 2015.04.13 hivehueimpalasolr
hive Hive on Spark のベータ版! Hive on Spark 寝る間際に見てしまった、「Download the Hive-on-Spark Beta」という文字。 下記のClouderaのブログによれば、Cloudera ManagerからHive on Sparkがセッ... 2015.02.26 hive
hive 祝!Hive 1.0.0 リリース 本日、Apache Hive 1.0.0 がリリースされました。ダウンロードはこちら -> 下記のブログからいくつか抜粋してみます 2015.02.05 hive
hadoop Hadoopのいろんな言語でwordcount(1) Hadoop関連(全部俺) Advent Calendar 2014:14日目の記事です Apache Crunchを少し調べたついでに、Hadoopでいろんな言語を用いてwordcountを実行してみました。まずはMapReduce, H... 2014.12.14 hadoophiveMapReducepig
hive 2014年版 Hadoopを10分で試す(5) まずはHiveから(後編) Hadoop関連(全部俺) Advent Calendar 2014:13日目の記事です #既に10分を超えてしまったかもしれませんが、、、 昨日はHiveが使用するメタストアについて紹介しました。テーブルは作成されていますが、まだデータが... 2014.12.13 hivehue