2019 年 2 月

次の機能と Azure Databricks プラットフォームの機能強化が 2019 年 2 月にリリースされました。

Note

リリースは段階的に行われます。 お使いの Azure Databricks アカウントは、リリースの初日から最大 1 週間後まで更新されない可能性があります。

Databricks Light の一般提供開始

2019 年 2 月 26 日 ~ 3 月 5 日: バージョン 2.92

Databricks Light (Data Engineering Light とも呼ばれる) が利用可能になります。 Databricks Light は、オープンソース Apache Spark ランタイムの Databricks パッケージです。 Databricks Runtime によって提供される高度なパフォーマンス、信頼性、または自動スケールの利点を必要としないジョブのためのランタイム オプションを提供します。 Databricks Light は、JAR、Python、または spark-submit ジョブを実行するためのクラスターを作成する場合にのみ選択できます。対話型またはノートブックのジョブ ワークロードを実行するクラスターに対してこのランタイムを選択することはできません。 「Databricks Light」を参照してください。

Azure Databricks パブリック プレビューでのマネージド MLflow

2019 年 2 月 26 日 ~ 3 月 5 日: バージョン 2.92

MLflow は、エンド ツー エンドの機械学習ライフサイクルを管理するためのオープンソース プラットフォームです。 次の 3 つの主要な機能に取り組んでいます。

  • 実験を追跡し、パラメーターと結果を記録および比較します。
  • 各種 ML ライブラリのモデルから、さまざまなモデル提供および推論のプラットフォームまでモデルを管理およびデプロイできます。
  • 再利用と再現が可能なフォームで ML コードをパッケージ化して、他のデータ サイエンティストと共有したり、運用環境に転送したりします。

Azure Databricks で提供される MLflow は、フル マネージドかつホスト型のバージョンであり、エンタープライズ セキュリティ機能や高可用性に加えて、実験と実行の管理やノートブック リビジョン キャプチャなど、その他の Azure Databricks ワークスペース機能が統合されています。 MLflow on Azure Databricks は、機械学習モデルのトレーニング実行を追跡および保護し、機械学習プロジェクトを実行するための統合エクスペリエンスを提供します。 マネージド MLflow を Azure Databricks で使用すると、次のような両方のプラットフォームの利点が得られます。

  • ワークスペース: ホストされている MLflow トラッキング サーバーと統合された実験 UI を使用して、Azure Databricks ワークスペース内で実験と結果を共同で追跡および整理します。 ノートブックで MLflow を使用すると、Azure Databricks が自動的にノートブックのリビジョンをキャプチャするため、同じコードを再現して後から実行できます。
  • セキュリティ: ACL を介して、ML ライフサイクル全体に対して 1 つの共通のセキュリティ モデルを利用します。
  • ジョブ: MLflow プロジェクトは、Azure Databricks ジョブとして、Azure Databricks ノートブックからリモートで実行するか、直接実行します。

次に示すのは、Azure Databricks ワークスペース内の追跡ワークフローです。

Track runs and organize experiment workflow

詳細については、「機械学習のトレーニング実行を追跡する」と、「Azure Databricks で MLflow プロジェクトを実行する」を参照してください。

Azure Data Lake Storage Gen2 コネクタの一般提供開始

2019 年 2 月 15 日

ビッグ データ分析用の次世代データ レイク ソリューションである Azure Data Lake Storage Gen2 (ADLS Gen2) は、Azure Databricks の ADLS Gen2 コネクタとして一般提供されています。 また、当社は、Databricks Runtime 5.2 以上でクラスターを実行している場合は、ADLS Gen2 が Databricks Delta をサポートすることを発表できることを嬉しく思っています。

クラスター作成時に Python 3 が既定に

2019 年 2 月 12 ~ 19 日: バージョン 2.91

UI を使用して作成されたクラスターの既定の Python バージョンは、Python 2 から Python 3 に切り替えられました。 REST API を使用して作成されたクラスターの既定は、引き続き Python 2 です。

既存のクラスターでは Python のバージョンは変更されません。 ただし、新しいクラスターを作成するときに Python 2 の既定を使用している場合は、Python バージョンの選択に注意するようにしてください。

Default Python version

Delta Lake の一般提供開始

2019 年 2 月 1 日

すべてのユーザーが Databricks Delta の強力なトランザクション ストレージ レイヤーと超高速読み取りを利用できます。2 月 1 日現在、Delta Lake は一般提供されており、サポートされている Databricks Runtime のすべてのバージョンで利用できます。 Delta の詳細については、「Delta Lake とは」を参照してください。