Hue情報 2020年版
このブログは「Distributed computing (Apache Spark, Hadoop, Kafka, ...) Advent Calendar 2020」の23日目の記事です。
ここ数年間は1年の締めくくりを兼ねて、オープンソースのDB、データウェアハウス向けのSQLアシスタントツールであるHueの更新情報を記述してきました。今年も Hue に関する情報です。
Hueって何?という方は、ちょっと古いですがこちらの記事をご覧ください。
なお、今年一番気合を入れて書いたブログはこれです!
過去のアドベントカレンダー
- 2019年: Hue 2019年情報
- 2018年: About Hue in 2018
- 2017年: (書いた気がするけど行方不明)
- 2017年: Hue 4.0 / Hue Meetup Tokyo #huejp
- 2016年: Hadoop関連(全部俺) Advent Calendar 2016 前半で玉砕
- 2016年: HUEについてのまとめ 2016年版
- 2015年: Cloudera Manager Advent Calendar 2015の2日目
- 2014年: Hadoop関連(全部俺) Advent Calendar 2014
- 2013年: Hadoop関連(全部俺) Advent Calendar 2013
- 2012年: Hadoopのノード間通信(1)

過去のブログは画像イメージのリンクが吹っ飛んでます。
しかし最初の数年間は狂ってたなw
Hue 4.9までの変更点、新機能
Python3 対応
ついに、というかようやく、というか、Python3系に対応しました!
デザインの変更
UIの大きな変更がありました。Hueは元々トップにメニューアイコンを並べるデザインでしたが、最近流行(?)の左側のメニューになっています。Hue version2 と4.7のスクリーンショットです。
Hue version 2
Hue4.7

トップメニューにアイコンが並んでいる昔のUIは実に可愛らしいw
SQLエディタの進化
オリジナルのHueのSQLエディタは、Hadoop系のSQLクエリエンジン (HiveやImpala)向けでした。現在では、公式サポートしているもの、非公式だが動くものを含めると、PrestoやBigQuery、Snowflake、PostgreSQL、Teradataなど、20以上のデータベースと接続できるようになっています。対応コネクタはドキュメントに記載されています。
現在鋭意対応中なのは次の通り。
その他、SQLエディタ系で良くなった点のいくつかは次の通り
- 外部キーが表示できるように
- Hive 4 のスケジュールクエリ対応
- 自動で補完できる構文が大きく追加(MATERIALIZED VIEWなど)
- テーブルの可視化
Azure ABFS 対応
HDFS、HBase、S3に続いてAzureにも対応しました。GCS対応のJIRAチケットはありますが、残念ながら長年更新されていません・・
Docker & Kubernetes
- Quickstart
DockerやKubernetesでHueを使ってみる方法が記載されています - Cloudera Hue をCDHから切り離してDockerで運用出来ないか検討してみる
HueをDockerで動かすことで、CDHとは異なる最新バージョンを使いたい、Hue Serverをスケールアウトしたいという場合は次のブログが参考になるでしょう
- HueからImpala+Kuduへの接続を全てDockerで行う
ちょっと視点は異なりますが、Impala+Kudu のDockerコンテナに HueのDockerコンテナ から接続した際のメモ
今後の展望
ClouderaはCDHとHDPを統合したCDP (ClouderaData Platform)を推進しています。CDP Public CloudやPrivate CloudではHueが最初から使えるようになっているので、より多くの人向けに便利で使いやすくなることに期待しています!(もちろん今まで通り、Hue単体でも使い続けられることに期待!)
おまけ
Hadoop(分散処理やストレージ基盤)は技術的にかなり成熟していることもあり、目新しい情報の露出が減っている感もありますが、今年も素晴らしい情報が公開されています。年末ですし日本語で読める記事をいくつかピックアップしてみました。(完全に個人的な嗜好です)
- LINE
ダウンタイムなしでHadoopクラスタを移行したときの話
HDFS Erasure Codingを大規模本番環境で運用するには〜LINEエンジニアによるトラブルシューティング〜 - Yahoo! Japan
HDFSをメジャーバージョンアップして新機能のRouter-based Federationを本番導入してみた
データドリブンなサービスを支えるネットワークの作り方〜 ヤフーのデータセンターネットワーク紹介 - PFN
Preferred Networks におけるHadoop - Cloudera Japan (日本語ブログ)
Cloudera Japan blog(特にOzone系の初期情報が充実) - NTTデータ
並列分散処理基盤のいま 45分で学ぶHadoop/Spark/Kafka/ストレージレイヤSW入門 - MicroAd
マイクロアドのログ蓄積の流れ
より使いやすいデータ分析基盤にするために - トレジャーデータ (厳密に言えばHadoop情報ではないですが、データ連携の際に役立ちます)
Treasure Data - Support Engineering Team blog - その他
Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い

WikipediaにHueが掲載されていました 🙂
https://en.wikipedia.org/wiki/Hue_(software)
Enjoy your data life!
コメント