2020 年 5 月
これらの機能と Azure Databricks プラットフォームの機能強化が 2020 年 5 月にリリースされました。
Note
リリースは段階的に行われます。 お使いの Azure Databricks アカウントは、リリースの初日から最大 1 週間後まで更新されない可能性があります。
Easv4 シリーズの VM (ベータ版)
2020 年 5 月 29 日
Azure Databricks は、Premium SSD を使用し、3.35 GHz のブースト最大周波数を達成できる Easv4 シリーズ VM のベータ サポートを提供するようになりました。 これらのインスタンスの種類を使用すると、メモリを大量に消費するエンタープライズ アプリケーションのワークロードのパフォーマンスを最適化できます。
Databricks Runtime 6.6 for Genomics GA
2020 年 5 月 26 日
Databricks Runtime 6.6 for Genomics は、Databricks Runtime 6.6 の上に構築され、次の新機能を含みます。
- GFF3 リーダー
- カスタム参照ゲノムのサポート
- サンプルごとのパイプライン タイムアウト
- BAM エクスポート オプション
- マニフェスト BLOB
Databricks Runtime 6.6 ML GA
2020 年 5 月 26 日
Databricks Runtime 6.6 ML は、Databricks Runtime 6.6 の上に構築され、次の新機能を含みます。
- アップグレードされた mlflow: 1.7.0 から 1.8.0
詳細については、Databricks Runtime 6.6 ML (サポート対象外) の完全なリリース ノートを参照してください。
Databricks Runtime 6.6 GA
2020 年 5 月 26 日
Databricks Runtime 6.6 では、次の Delta Lake 機能を含む、多くのライブラリのアップグレードと新機能が導入されています。
- これで、
merge
操作を使用してテーブルのスキーマを自動的に拡張できます。 これは、データの変更をテーブルにアップサートする場合や、データのスキーマを時間の経過と共に変更する場合に便利です。merge
では、アップサートする前にスキーマの変更を検出して適用する代わりに、スキーマの拡張と変更のアップサートを同時に行うことができます。 「Delta Lake マージの自動スキーマの進化」を参照してください。 - 一致する句のみを含むマージ操作 (つまり、
update
およびdelete
アクションのみの、insert
アクションがないマージ操作) のパフォーマンスが向上しました。 - Hive メタストアで参照されている Parquet テーブルは、
CONVERT TO DELTA
を使用してテーブル識別子を介して Delta Lake に変換できるようになりました。
詳細については、Databricks Runtime 6.6 (サポート対象外) の完全なリリース ノートを参照してください。
DBFS REST API 削除エンドポイントのサイズの制限
2020 年 5 月 21 日から 28 日: バージョン 3.20
DBFS API を使用して多数のファイルを再帰的に削除すると、削除操作は徐々に実行されます。 この呼び出しでは、約 45 秒後にエラー メッセージを含む応答が返され、ディレクトリ構造が完全に削除されるまで削除操作を再呼び出しするように求められます。 次に例を示します。
{
"error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}
大量の MLflow 登録済みモデルを簡単に表示
2020 年 5 月 21 日から 28 日: バージョン 3.20
MLflow モデル レジストリで、登録済みモデルのサーバー側の検索と改ページ位置の自動修正がサポートされるようになりました。これにより、多数のモデルがある組織が一覧表示と検索を効率的に実行できるようになります。 以前と同様に、名前でモデルを検索し、名前または最終更新時刻の順に結果を取得できます。 ただし、モデルが大量にある場合は、ページの読み込みにかかる時間が大幅に短縮され、検索でモデルの最新のビューが取得されます。
すべてのクラスターにインストールするように構成されたライブラリが Databricks Runtime 7.0 以降を実行しているクラスターにインストールされない
2020 年 5 月 21 日から 28 日: バージョン 3.20
Databricks Runtime 7.0 以降では、Apache Spark の基になるバージョンが Scala 2.12 を使用しています。 Scala 2.11 に対してコンパイルされたライブラリは、予期しない動作によって Databricks Runtime 7.0 クラスターを無効にする可能性があります。そのため、Databricks Runtime 7.0 以降を実行しているクラスターでは、すべてのクラスターにインストールされるように構成されたライブラリはインストールされません。 クラスターの [ライブラリ] タブには、ステータス Skipped
と、ライブラリ処理での変更に関連する非推奨メッセージが表示されます。
"3.20 がワークスペースにリリースされる前の" Databricks Runtime の以前のバージョンで作成されたクラスターがある場合は、Databricks Runtime 7.0 を使用するようにそのクラスターを編集しようとすると、すべてのクラスターにインストールされるように構成されたライブラリはすべて、そのクラスターにインストールされます。 この場合は、インストールされたライブラリ内の互換性がない JAR が原因で、クラスターが無効になることがあります。 回避策は、クラスターを複製するか、新しいクラスターを作成することです。
Databricks Runtime 7.0 for Genomics (ベータ版)
2020 年 5 月 21 日
Databricks Runtime 7.0 for Genomics は、Databricks Runtime 7.0 の上に構築され、次のライブラリの変更を含みます。
- ADAM ライブラリがバージョン 0.30.0 から 0.32.0 に更新されました。
- Apache Spark 3.0 に基づくリリースは存在しないため、Hail ライブラリは Databricks Runtime 7.0 for Genomics に含まれていません。
Databricks Runtime 7.0 ML (ベータ版)
2020 年 5 月 21 日
Databricks Runtime 7.0 ML は、Databricks Runtime 7.0 の上に構築され、次の新機能を含みます。
- conda および pip コマンドによって管理されるノートブックスコープの Python ライブラリとカスタム環境。
- tensorflow、tensorboard、pytorch、xgboost、sparkdl、および hyperopt を含む主要な Python パッケージの更新。
- 新しく追加された Python パッケージは、lightgbm、nltk、petastorm、および plotly です。
- RStudio Server Open Source v1.2。
詳細については、Databricks Runtime 7.0 ML (サポート対象外) の完全なリリース ノートを参照してください。
Databricks Runtime 6.6 for Genomics (ベータ版)
2020 年 5 月 7 日
Databricks Runtime 6.6 for Genomics は、Databricks Runtime 6.6 の上に構築され、次の新機能を含みます。
- GFF3 リーダー
- カスタム参照ゲノムのサポート
- サンプルごとのパイプライン タイムアウト
- BAM エクスポート オプション
- マニフェスト BLOB
Databricks Runtime 6.6 ML (ベータ版)
2020 年 5 月 7 日
Databricks Runtime 6.6 ML は、Databricks Runtime 6.6 の上に構築され、次の新機能を含みます。
- アップグレードされた mlflow: 1.7.0 から 1.8.0
詳細については、Databricks Runtime 6.6 ML (サポート対象外) の完全なリリース ノートを参照してください。
Databricks Runtime 6.6 (ベータ版)
2020 年 5 月 7 日
Databricks Runtime 6.6 (ベータ版) では、次の Delta Lake 機能を含む、多くのライブラリのアップグレードと新機能が導入されています。
- これで、
merge
操作を使用してテーブルのスキーマを自動的に拡張できます。 これは、データの変更をテーブルにアップサートする場合や、データのスキーマを時間の経過と共に変更する場合に便利です。merge
では、アップサートする前にスキーマの変更を検出して適用する代わりに、スキーマの拡張と変更のアップサートを同時に行うことができます。 「Delta Lake マージの自動スキーマの進化」を参照してください。 - 一致する句のみを含むマージ操作 (つまり、
update
およびdelete
アクションのみの、insert
アクションがないマージ操作) のパフォーマンスが向上しました。 - Hive メタストアで参照されている Parquet テーブルは、
CONVERT TO DELTA
を使用してテーブル識別子を介して Delta Lake に変換できるようになりました。
詳細については、Databricks Runtime 6.6 (サポート対象外) の完全なリリース ノートを参照してください。
ジョブ クラスターがジョブ名および ID でタグ付けされる
2020 年 5 月 5 日から 12 日: バージョン 3.19
ジョブ クラスターに、ジョブ名と ID が自動的にタグ付けされます。 タグは課金対象の使用状況レポートに表示されるため、DBU の使用状況をジョブごとに簡単に識別し、異常を特定できます。 タグは、許可される文字、最大サイズ、最大タグ数などのクラスターのタグの仕様に合わせてサニタイズされます。 ジョブ名は RunName
タグに含まれ、ジョブ ID は JobId
タグに含まれます。
削除されたノートブックのセルを復元する
2020 年 5 月 5 日から 12 日: バージョン 3.19
キーボード ショートカット (Z
) を使用するか、[編集] > [Undo Delete Cells] (セルの削除を元に戻す) を選択して、削除されたセルを復元できるようになりました。
ジョブ保留キューの制限
2020 年 5 月 5 日から 12 日: バージョン 3.19
ワークスペースでのアクティブな (実行中および保留中) ジョブ実行が 1,000 に制限されるようになりました。 ワークスペースでは同時 (実行中) ジョブ実行は 150 に制限されているため、保留中キューに最大 850 の実行を含むことができます。