Apache Hudiに関する情報

hudi

2020/6/8 更新: Apache Hudi がApacheのトップレベルプロジェクトになりました

Apache Hudi はHDFSやオブジェクトストア上に実装される、大規模な分析データセットのストレージの取り込みと管理を行う階層です。Hudiのホームページには次のように書かれています。

Apache Hudi ingests & manages storage of large analytical datasets over DFS (hdfs or cloud stores).

特徴としてバッチ処理だけでなくストリーミング処理にも適しており、SparkやHive、Impala、PrestoといったSQLエンジンから利用することを想定しています。

利用方法のリンク

他のエコシステム(Kudu、Hive、HBase、ストリーム処理)との比較
https://hudi.apache.org/docs/comparison.html

コメント