Impalaのロードマップ 2015年版

本日、What’s Next for Impala: More Reliablity, Usability, and Performance at Even Greater Scale というブログが公開されていました。
このブログには2015〜2016にかけてのImpalaのロードマップが記されています。とはいえ、翻訳されるかどうかわからないので、個人的に興味がある部分を抜粋してみました。意訳ですし間違いがあるかもしれないので、詳細は原文を確認してください。
しかし、来年も楽しみな機能が目白押しですね。

  • Impalaは、金融サービス、小売り業、ヘルスケア、ゲーム会社、政府、広告、電話会社などの業種に渡って広く本番環境で利用されている
  • いくつかの企業では大規模に利用されており、ある広告会社では1000を超えるエンドユーザのウェブのダッシュボードから秒間80クエリ以上を実行し、数秒で結果を得ている
  • CDH4用のスタンドアロンのImpalaのダウンロード数は100万以上、CDH5はImpalaを同梱しているので比較できないが、数百万(?)
  • Impalaはマルチベンダーがサポートしているオープンな標準。(Cloudera, Oracle, MapR, Amazon。最近 Big SQL内部でも利用されている <- これ知らなかった)
  • コミュニティと貢献が重要

ロードマップ(リリース済み)

2.0

  • SQL 2003互換の分析ウィンドウ関数
  • spill to disk によるディスクを使用したJOIN (<- 遅いがメモリに乗らない場合に効果がある)
  • WHERE句でのサブクエリ
  • データタイプの追加 (VARCHAR, CHAR)
  • 組み込み関数の追加

2.1

  • Incremental stats (統計の更新)
  • メタストア更新のスケーラビリティを強化

2.2

  • Cloudera Navigatorによる列レベルでのリネージの追跡 (<- 変更などを追跡できる。セキュリティ用)
  • Amazon S3から直接読みだす機能を追加(β版)

2015の予定

  • EMC Isilonサポート
  • ネスト型 (MAP/STRUCT/ARRAY) <- 待望の機能がついに!
  • さらに大規模なスケーラビリティと信頼性
  • 並列におけるさらに良好な予測(限られたリソース状況で良好に並列で処理する)
  • 新しいPythonデータ分析フレームワーク (これはなんだろう?)

2015-2016初期の予定

  • CDH全体にわたるきめ細かい認可
  • 動的なパーティション刈り込み (pruning)
  • メタデータ伝搬のための大規模なノードのスケラービリティ
  • LlamaによるYARN統合の改善

2016

  • 更新のサポート (なんと!)
  • 20倍以上のパフォーマンスを獲得。 (Intelのハードウェアの命令を駆使するようですが、20倍の性能アップはすごい!)
  • インメモリカラムナフォーマット
  • メタデータ更新の自動化
  • 統計情報収集の自動化
  • 一時テーブル
  • 言語拡張とデータ型の追加

 
 
 

コメント

  1. kawasaki より:

    新しいPythonデータ分析フレームワークとはIbisプロジェクトでした。
    http://blog.cloudera.com/blog/2015/07/ibis-on-impala-python-at-scale-for-data-science/