Apache Arrowとは

2月にApadheのトップレベルプロジェクトになったApache Arrowに注目しています。
一言で言えば「インメモリで列指向データを扱うための標準」を目指しているものです。

注目度の高い理由の一つとしては、多くの主要OSSの開発者が関わっており、今後多くのプロジェクトで標準で利用できるようになる可能性が高いことです。Apache のブログによると以下のプロジェクトのコミッターが開発に関わっています。

  • Calcite
  • Cassandra
  • Drill
  • Hadoop
  • HBase
  • Impala (incubating)
  • Kudu (incubating)
  • Parquet
  • Phoenix
  • Spark
  • Storm
  • Pandas
  • Ibis

Apache Arrow ではないですが、RとPythonのデータフレームの為の高速なディスク上のフォーマットを実現したFeatherが開発されています。


フォーマットが確定しているわけではないので、まだ本番環境で利用するのは避けたほうが良さそうですが、性能もかなり期待できそう。


今後のArrow、Featherに期待です。

コメント