2019 年 7 月July 2019

これらの機能と Azure Databricks プラットフォームの機能強化は、2019年7月にリリースされました。These features and Azure Databricks platform improvements were released in July 2019.

注意

リリースはステージングされています。Releases are staged. Azure Databricks アカウントは、最初のリリース日から1週間以内に更新することはできません。Your Azure Databricks account may not be updated until up to a week after the initial release date.

近日公開予定: Databricks 6.0 は Python 2 をサポートしませんComing soon: Databricks 6.0 will not support Python 2

2020に発表された Python 2 の有効期間の終わりを見越して、Databricks Runtime 6.0 では Python 2 はサポートされません。In anticipation of the upcoming end of life of Python 2, announced for 2020, Python 2 will not be supported in Databricks Runtime 6.0. 以前のバージョンの Databricks Runtime は、引き続き Python 2 をサポートします。Earlier versions of Databricks Runtime will continue to support Python 2. 2019で Databricks Runtime 6.0 を後でリリースする予定です。We expect to release Databricks Runtime 6.0 later in 2019.

プールのアイドル状態のインスタンスに Databricks Runtime のバージョンを事前にプリロードするPreload the Databricks Runtime version on pool idle instances

2019年7月30日: バージョン2.103July 30 - Aug 6, 2019: Version 2.103

プール内のアイドル状態のインスタンスに読み込む Databricks Runtime バージョンを選択することで、プールによってサポートされるクラスターの起動速度を上げることができるようになりました。You can now speed up pool-backed cluster launches by selecting a Databricks Runtime version to be loaded on idle instances in the pool. プール UI のフィールドは、プリロードされたSpark バージョンと呼ばれます。The field on the Pool UI is called Preloaded Spark Version.

代替テキスト](../../../_static/images/instance-pools/preloaded-spark.png) を ![no-alternative-text

カスタムクラスタータグとプールタグが一緒に再生されるCustom cluster tags and pool tags play better together

2019年7月30日: バージョン2.103July 30 - Aug 6, 2019: Version 2.103

この月の前半では、プールが導入されており、クラスターを迅速に作成するのに役立つ一連のアイドル状態のインスタンスが Azure Databricks ました。Earlier this month, Azure Databricks introduced pools, a set of idle instances that help you spin up clusters fast. 最初のリリースでは、プールによってサポートされるクラスターはプール構成から既定のタグとカスタムタグを継承しており、これらのタグはクラスターレベルで変更できませんでした。In the original release, pool-backed clusters inherited default and custom tags from the pool configuration, and you could not modify these tags at the cluster level. プールによってサポートされるクラスターに固有のカスタムタグを構成できるようになりました。このクラスターは、プールから継承されたか、またはそのクラスターに明示的に割り当てられているすべてのカスタムタグを適用します。Now you can configure custom tags specific to a pool-backed cluster, and that cluster will apply all custom tags, whether inherited from the pool or assigned to that cluster specifically. プールから継承されたカスタムタグと同じキー名を持つクラスター固有のカスタムタグを追加することはできません (つまり、プールから継承されたカスタムタグをオーバーライドすることはできません)。You cannot add a cluster-specific custom tag with the same key name as a custom tag inherited from a pool (that is, you cannot override a custom tag that is inherited from the pool). 詳細については、「プールタグ」を参照してください。For details, see Pool tags.

MLflow 1.1 では、いくつかの UI と API の機能強化が図られています。MLflow 1.1 brings several UI and API improvements

2019年7月30日: バージョン2.103July 30 - Aug 6, 2019: Version 2.103

MLflow 1.1 では、UI と API の使いやすさを向上させるいくつかの新機能が導入されています。MLflow 1.1 introduces several new features to improve UI and API usability:

  • 実行の概要 UI では、実行の数が100を超えた場合に、実行の複数のページを参照できるようになりました。The runs overview UI now lets you browse through multiple pages of runs if the number of runs exceeds 100. 100を実行した後、 [さらに読み込む] ボタンをクリックして、次の100回の実行を読み込みます。After the 100th run, click the Load more button to load the next 100 runs.

    代替テキスト](../../../_static/images/mlflow/paged-runs.gif) を ![no-alternative-text

  • 比較実行 UI で、並列座標プロットが提供されるようになりました。The compare runs UI now provides a parallel coordinates plot. プロットを使用すると、n 次元のパラメーターのセットとメトリックの間のリレーションシップを観察できます。The plot allows you to observe relationships between an n-dimensional set of parameters and metrics. すべての実行が、メトリックの値 (精度など) に基づいて色分けされた行として視覚化され、各実行にかかったパラメーター値が表示されます。It visualizes all runs as lines that are color-coded based on the value of a metric (for example, accuracy), and shows the parameter values that each run took on.

    代替テキスト](../../../_static/images/mlflow/parallel-coordinates.gif) を ![no-alternative-text

  • これで、実行の概要 UI のタグの追加と編集、および実験の検索ビューのタグの表示を行うことができるようになりました。Now you can add and edit tags from the run overview UI and view tags in the experiment search view.

  • 新しいMlflowcontext apiを使用すると、Python api と同様の方法で実行を作成してログに記録できます。The new MLflowContext API lets you create and log runs in a way that is similar to the Python API. この API は、REST Api をラップするだけの、既存の低レベル MlflowClient API とは対照的です。This API contrasts with the existing low-level MlflowClient API, which simply wraps the REST APIs.

  • Deletetag APIを使用して、mlflow の実行からタグを削除できるようになりました。You can now delete tags from MLflow runs using the DeleteTag API.

詳細については、 Mlflow 1.1 のブログ投稿を参照してください。For details, see the MLflow 1.1 blog post. 機能と修正プログラムの完全な一覧については、「 Mlflow 1.1 Changelog」を参照してください。For the complete list of features and fixes, see the MLflow 1.1 Changelog.

パンダデータフレーム表示は Jupyter のようにレンダリングされます。pandas DataFrame display renders like it does in Jupyter

2019年7月30日: バージョン2.103July 30 - Aug 6, 2019: Version 2.103

これで、パンダデータフレームを呼び出すと、Jupyter と同じように表示されるようになりました。Now when you call a pandas DataFrame, it will render the same way as it does in Jupyter.

代替テキスト](../../../_static/images/notebooks/pandas-dataframe-display.gif) を ![no-alternative-text

新しいリージョンNew regions

2019年7月30日July 30, 2019

Azure Databricks は、次の追加のリージョンで使用できるようになりました。Azure Databricks is now available in the following additional regions:

  • 韓国中部Korea Central
  • 南アフリカ北部South Africa North

Conda (ベータ) を使用した5.5 の Databricks RuntimeDatabricks Runtime 5.5 with Conda (Beta)

2019年7月23日July 23, 2019

重要

Conda を使用した Databricks Runtime はベータ版です。Databricks Runtime with Conda is in Beta. サポートされている環境の内容は、今後のベータリリースで変更される可能性があります。The contents of the supported environments may change in upcoming Beta releases. 変更には、パッケージまたはインストールされているパッケージのバージョンの一覧を含めることができます。Changes can include the list of packages or versions of installed packages. Conda を使用した Databricks Runtime 5.5 はDatabricks Runtime 5.5 LTSの上に構築されています。Databricks Runtime 5.5 with Conda is built on top of Databricks Runtime 5.5 LTS.

Conda リリースでの Databricks Runtime 5.5 では、ノートブックの Conda 環境を YAML 仕様で更新するための新しい notebook スコープライブラリ API が追加されています ( Conda のドキュメントを参照してください)。The Databricks Runtime 5.5 with Conda release adds a new notebook-scoped library API to support updating the notebook’s Conda environment with a YAML specification (see Conda documentation).

Conda (ベータ) を使用した Databricks Runtime 5.5の完全なリリースノートを参照してください。See the complete release notes at Databricks Runtime 5.5 with Conda (Beta).

更新された metastore 接続の制限Updated metastore connection limit

16-23 年7月、2019: バージョン2.102July 16 - 23, 2019: Version 2.102

Eastus、eastus2、centralus、westus、westus2、westeurope の新しい Azure Databricks ワークスペースでは、250の metastore 接続制限が高くなります。New Azure Databricks workspaces in eastus, eastus2, centralus, westus, westus2, westeurope, northeurope will have a higher metastore connection limit of 250. 既存のワークスペースでは、引き続き現在の metastore を中断せずに使用し、100の接続制限を継続します。Existing workspaces will continue to use the current metastore with no disruption and continue to have a connection limit of 100.

プールに対するアクセス許可の設定 (パブリックプレビュー)Set permissions on pools (Public Preview)

16-23 年7月、2019: バージョン2.102July 16 - 23, 2019: Version 2.102

プール UI で、プールを管理できるユーザーと、プールにクラスターをアタッチできるユーザーに対するアクセス許可の設定がサポートされるようになりました。The pool UI now supports setting permissions on who can manage pools and who can attach clusters to pools.

詳細については、「 Pool Access Control」を参照してください。For details, see Pool Access Control.

Machine Learning の Databricks Runtime 5.5Databricks Runtime 5.5 for Machine Learning

2019年7月15日July 15, 2019

Databricks Runtime 5.5 ML はDatabricks Runtime 5.5 LTSの上に構築されています。Databricks Runtime 5.5 ML is built on top of Databricks Runtime 5.5 LTS. これには、PyTorch、Keras、XGBoost ストなど、一般的な多くの機械学習ライブラリが含まれており、Horovod を使用して、分散されたのトレーニングを提供します。It contains many popular machine learning libraries, including TensorFlow, PyTorch, Keras, and XGBoost, and provides distributed TensorFlow training using Horovod.

このリリースには、次の新機能と機能強化が含まれています。This release includes the following new features and improvements:

  • Mlflow 1.0 Python パッケージが追加されましたAdded the MLflow 1.0 Python package
  • アップグレードされた機械学習ライブラリUpgraded machine learning libraries
    • 1.12.0 以降から1.13.1 にアップグレードされた更新Tensorflow upgraded from 1.12.0 to 1.13.1
    • PyTorch を0.4.1 から1.1.0 にアップグレードしましたPyTorch upgraded from 0.4.1 to 1.1.0
    • scikit-learn-0.19.1 から0.20.3 にアップグレードする方法について説明します。scikit-learn upgraded from 0.19.1 to 0.20.3
  • HorovodRunnerの単一ノード操作Single-node operation for HorovodRunner

詳細については、「 Databricks Runtime 5.5 LTS ML」を参照してください。For details, see Databricks Runtime 5.5 LTS ML.

Databricks Runtime 5.5Databricks Runtime 5.5

2019年7月15日July 15, 2019

Databricks Runtime 5.5 が使用できるようになりました。Databricks Runtime 5.5 is now available. Databricks Runtime 5.5 には、Apache Spark 2.4.3、アップグレードされた Python、R、Java、およびスケールのライブラリと、次の新機能が含まれています。Databricks Runtime 5.5 includes Apache Spark 2.4.3, upgraded Python, R, Java, and Scala libraries, and the following new features:

  • デルタレイク on Azure Databricks 自動最適化 GADelta Lake on Azure Databricks Auto Optimize GA
  • 差分、最大、およびカウントの集計クエリパフォーマンスを向上 Azure Databricks のデルタ LakeDelta Lake on Azure Databricks improved min, max, and count aggregation query performance
  • 改良されたバイナリファイルデータソースとスカラー反復子パンダの UDF を使用した、より高速なモデル推論パイプライン (パブリックプレビュー)Faster model inference pipelines with improved binary file data source and scalar iterator pandas UDF (Public Preview)
  • R notebook のシークレット APISecrets API in R notebooks

詳細については、 Databricks Runtime 5.5 LTSを参照してください。For details, see Databricks Runtime 5.5 LTS.

クイッククラスター起動用にインスタンスのプールをスタンバイに保持する (パブリックプレビュー)Keep a pool of instances on standby for quick cluster launch (Public Preview)

9-11 年7月、2019: バージョン2.101July 9 - 11, 2019: Version 2.101

クラスターの開始時間を短縮するために、Azure Databricks は、事前に定義されたアイドル状態のプールにクラスターをアタッチできるようになりました。To reduce cluster start time, Azure Databricks now supports attaching a cluster to a pre-defined pool of idle instances. プールに接続されている場合、クラスターはそのドライバーとワーカーノードをプールから割り当てます。When attached to a pool, a cluster allocates its driver and worker nodes from the pool. プールにクラスターの要求に対応するのに十分なアイドルリソースがない場合、クラウドプロバイダーから新しいインスタンスを割り当てることによって、プールが拡張されます。If the pool does not have sufficient idle resources to accommodate the cluster’s request, the pool expands by allocating new instances from the cloud provider. アタッチされたクラスターが終了すると、使用されたインスタンスがプールに返され、別のクラスターで再利用できるようになります。When an attached cluster is terminated, the instances it used are returned to the pool and can be reused by a different cluster.

プール内のインスタンスがアイドル状態のときに、Azure Databricks によって DBUs が課金されることはありません。Azure Databricks does not charge DBUs while instances are idle in the pool. インスタンスプロバイダーの課金が適用されます。価格を参照してください。Instance provider billing does apply; see pricing.

詳細については、「プール」を参照してください。For details, see Pools.

Ganglia メトリックGanglia metrics

9-11 年7月、2019: バージョン2.101July 9 - 11, 2019: Version 2.101

Gangliaは、Azure Databricks クラスターで使用できるようになったスケーラブルな分散監視システムです。Ganglia is a scalable distributed monitoring system that is now available on Azure Databricks clusters. Ganglia メトリックは、クラスターのパフォーマンスと正常性を監視するのに役立ちます。Ganglia metrics help you to monitor cluster performance and health. Ganglia メトリックにアクセスするには、[クラスターの詳細] ページを使用します。You can access Ganglia metrics from the cluster details page:

代替テキスト](../../../_static/images/clusters/metrics-tab.png) を ![no-alternative-text

Ganglia メトリックの使用と構成の詳細については、「 Ganglia metrics」を参照してください。For details on using and configuring Ganglia metrics, see Ganglia metrics.

グローバル系列の色Global series color

9-11 年7月、2019: バージョン2.101July 9 - 11, 2019: Version 2.101

これで、ノートブック内のすべてのグラフで系列の色を統一するように指定できるようになりました。You can now specify that the colors of a series should be consistent across all charts in your notebook. 系列の色分け」を参照してください。See Series coloring.

代替テキスト](../../../_static/images/notebooks/series-colors.gif) を ![no-alternative-text