2020/6/8 更新: Apache Hudi がApacheのトップレベルプロジェクトになりました
The Apache Software Foundation Announces Apache Hudi as a Top-Level Project https://t.co/lAW7BhF5Lq #Apache #OpenSource #innovation #community #BigData #DataLake #StreamProcessing #Hadoop #Hudi pic.twitter.com/ZuJ0xeJCW7
— Apache - The ASF (@TheASF) June 4, 2020
Apache Hudi はHDFSやオブジェクトストア上に実装される、大規模な分析データセットのストレージの取り込みと管理を行う階層です。Hudiのホームページには次のように書かれています。
Apache Hudi ingests & manages storage of large analytical datasets over DFS (hdfs or cloud stores).
特徴としてバッチ処理だけでなくストリーミング処理にも適しており、SparkやHive、Impala、PrestoといったSQLエンジンから利用することを想定しています。
利用方法のリンク
他のエコシステム(Kudu、Hive、HBase、ストリーム処理)との比較
https://hudi.apache.org/docs/comparison.html
- Apache Hudi にあるテーブルへのアクセス
Querying Hudi TablesConceptually, Hudi stores data physically once on DFS, while providing 3 different ways of querying, as explained before. Once the table is synced to the Hive m... - HudiにSparkからアクセスするQuickstart(spark-shellとPySpark)
Quick-Start GuideThis guide provides a quick peek at Hudi’s capabilities using spark-shell. Using Spark datasources, we will walk through code snippets that allows you to insert...
コメント