HBase CERNで実施したベンチマークが公開されています CERNが公開した、 「Apache Hadoopエコシステムにおける、異なるファイル形式とストレージエンジンのパフォーマンス比較」 を日本語化して公開しました。 Apache Avro, Apache Parquet, Apache HB... 2017.02.21 HBaseKudu
hive RDBMSからSqoopを用いてParquet形式でデータを取り込む Hadoop上、または SQL on Hadoopで分析を行う場合、テキストファイル(CSVやJSONなど)をそのまま使うとパフォーマンス的に不利になる場合が多いです。(ファイルから改行文字や区切り文字を探して都度都度処理をすれば、当然遅く... 2016.12.12 hive