Juli 2020

Diese Features und Azure Databricks-Plattformverbesserungen wurden im Juli 2020 veröffentlicht.

Hinweis

Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst eine Woche nach dem Datum der ersten Veröffentlichung aktualisiert.

Webterminal (Public Preview)

29. Juli – 4. August 2020: Version 3.25

Webterminal ist eine praktische und äußerst interaktive Möglichkeit für Benutzer mit der Berechtigung KANN ANFÜGEN AN in einem Cluster zum Ausführen von Shellbefehlen, einschließlich Editoren wie Vim oder Emacs. Beispiele für die Verwendung des Webterminals sind die Überwachung der Ressourcennutzung und die Installation von Linux-Paketen.

Weitere Informationen finden Sie unter Webterminal.

Neues, sichereres globales Initialisierungsskriptframework (Public Preview)

29. Juli – 4. August 2020: Version 3.25

Das neue globale Init-Skriptframework bietet erhebliche Verbesserungen gegenüber älteren globalen Init-Skripts:

  • Initialisierungsskripts sind sicherer und erfordern für Erstell-, Anzeige- und Löschvorgänge Administratorberechtigungen.
  • Skriptbezogene Startfehler werden protokolliert.
  • Sie können die Ausführungsreihenfolge mehrerer Initialisierungsskripts festlegen.
  • Initialisierungsskripts können auf clusterbezogene Umgebungsvariablen verweisen.
  • Init-Skripte können über die Admin Einstellungen oder die neue Global Init Scripts REST API erstellt und verwaltet werden.

Databricks empfiehlt Ihnen, vorhandene veraltete globale Initialisierungsskripts zum neuen Framework zu migrieren, um von diesen Verbesserungen zu profitieren.

Ausführliche Informationen finden Sie unter Globale Initskripts verwenden.

IP-Zugriffslisten jetzt allgemein verfügbar

29. Juli – 4. August 2020: Version 3.25

Die IP-Zugriffslisten-API ist jetzt allgemein verfügbar.

Die GA-Version enthält eine Änderung, die das Umbenennen der list_type-Werte ist:

  • WHITELIST in ALLOW
  • BLACKLIST in BLOCK

Verwenden Sie die IP-Zugriffslisten-API, um Ihre Azure Databricks-Arbeitsbereiche so zu konfigurieren, dass Benutzer nur über vorhandene Unternehmensnetzwerke mit einem sicheren Umkreis eine Verbindung mit dem Dienst herstellen. Azure Databricks-Administrator*innen können die IP-Zugriffslisten-API verwenden, um eine Gruppe genehmigter IP-Adressen einschließlich Zulassungs- und Blockierungslisten zu definieren. Für den eingehenden Zugriff auf die Webanwendung und die REST-APIs müssen Benutzer*innen eine Verbindung über eine autorisierte IP-Adresse herstellen. So wird sichergestellt, dass nicht über öffentliche Netzwerke in einem Café oder an einem Flughafen auf Arbeitsbereiche zugegriffen werden kann, es sei denn, Ihre Benutzer*innen verwenden ein VPN.

Für dieses Feature ist der Premium-Plan erforderlich.

Weitere Informationen finden Sie unter Konfigurieren von IP-Zugriffslisten für Arbeitsbereiche.

Neues Dialogfeld für den Dateiupload

29. Juli – 4. August 2020: Version 3.25

Sie können jetzt kleine tabellarische Datendateien (z. B. CSVs) hochladen und über ein Notebook darauf zugreifen, indem Sie im Notebook-Menü Datei die Option Daten hinzufügen auswählen. Generierter Code zeigt, wie Sie die Daten in Pandas oder DataFrames laden. Administratoren können dieses Feature auf der Registerkarte Admin Console Advanced deaktivieren.

Weitere Informationen finden Sie unter Durchsuchen von Dateien in DBFS.

Verbesserung der SCIM-API-Filterung und -Sortierung

29. Juli – 4. August 2020: Version 3.25

Die SCIM-API enthält jetzt diese Verbesserungen beim Filtern und Sortieren:

  • Administratorbenutzer können Benutzer nach dem active-Attribut filtern.
  • Alle Benutzer können die Ergebnisse mithilfe der AbfrageparametersortBy und sortOrder sortieren. Die Standardeinstellung ist die Sortierung nach ID.

Azure Government-Regionen hinzugefügt

25. Juli 2020

Azure Databricks kürzlich in den Regionen US Gov Arizona und US Gov Virginia und deren Partner verfügbar.

Allgemeine Verfügbarkeit von Databricks Runtime 7.1

21. Juli 2020

In Databricks Runtime 7.1 gibt es viele Features und Verbesserungen gegenüber Databricks Runtime 7.0, zum Beispiel:

  • Google BigQuery-Konnektor
  • %pip Befehle zum Verwalten von Python-Bibliotheken, die in einer Notebooksitzung installiert sind
  • Installierte Koalas
  • Viele Delta Lake-Verbesserungen, einschließlich:
    • Festlegen benutzerdefinierter Commitmetadaten
    • Abrufen der Version des letzten Commits, der vom aktuellen SparkSession geschrieben wurde
    • Konvertieren von Parquet-Tabellen, die durch strukturiertes Streaming mithilfe des Transaktionsprotokolls _spark_metadata erstellt wurden
    • MERGE INTO Leistungsverbesserungen

Einzelheiten finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 7.1 (nicht unterstützt).

Allgemeine Verfügbarkeit von Databricks Runtime 7.1 ML

21. Juli 2020

Databricks Runtime 7.1 für Machine Learning basiert auf Databricks Runtime 7.1 und bietet die folgenden neuen Features und Bibliotheksänderungen:

  • standardmäßig aktivierte pip- und conda magic-Befehle
  • spark-tensorflow-distributor: 0.1.0
  • pillow 7.0.0 -> 7.1.0
  • pytorch 1.5.0 -> 1.5.1
  • torchvision 0.6.0 -> 0.6.1
  • horovod 0.19.1 -> 0.19.5
  • mlflow 1.8.0 -> 1.9.1

Ausführliche Informationen finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 7.1 für ML (nicht unterstützt).

Allgemeine Verfügbarkeit von Databricks Runtime 7.1 Genomics

21. Juli 2020

Databricks Runtime 7.1 für Genomics basiert auf Databricks Runtime 7.1 und enthält die folgenden neuen Features:

  • LOCO-Transformation
  • GloWGR-Funktion zur Ausgabeneustrukturierung
  • RNASeq gibt nicht gekoppelte Ausrichtungen aus

Databricks Connect 7.1 (Public Preview)

17. Juli 2020

Databricks Connect 7.1 ist jetzt als öffentliche Vorschauversion verfügbar.

Updates für IP-Zugriffslisten-APIs

15. bis 21. Juli 2020: Version 3.24

Die folgenden Eigenschaften der IP-Zugriffslisten-API wurden geändert:

  • updator_user_id in updated_by
  • creator_user_id in created_by

Python-Notebooks unterstützen jetzt mehrere Ausgaben pro Zelle.

15. bis 21. Juli 2020: Version 3.24

Python-Notebooks unterstützen jetzt mehrere Ausgaben pro Zelle. Dies bedeutet, dass Sie eine beliebige Anzahl von Display-, displayHTML- oder print-Anweisungen in einer Zelle verwenden können. Nutzen Sie die Möglichkeit, die Rohdaten und den Plot in derselben Zelle oder alle erfolgreichen Ausgaben zu sehen, bevor ein Fehler auftritt.

Mehrere Ausgaben in einer Zelle

Dieses Feature erfordert Databricks Runtime 7.1 oder höher und ist in Databricks Runtime 7.1 standardmäßig deaktiviert. Aktivieren Sie es, indem Sie spark.databricks.workspace.multipleResults.enabled true festlegen.

Anzeigen von Notebookcode und Ergebniszellen nebeneinander

15. bis 21. Juli 2020: Version 3.24

Mit der neuen Anzeigeoption „Side-by-Side Notebook“ können Sie Code und Ergebnisse nebeneinander anzeigen. Diese Anzeigeoption verbindet die Option „Standard“ (früher „Code“) und die Option „Nur Ergebnisse“.

Parallele Ansicht

Anhalten von Auftragszeitplänen

15. bis 21. Juli 2020: Version 3.24

Zeitpläne für Aufträge verfügen jetzt über die Schaltflächen Anhalten und Anhalten beenden, um das Anhalten und Fortsetzen von Aufträgen zu einfach zu machen. Jetzt können Sie Änderungen an einem Auftragszeitplan vornehmen, ohne dass zusätzliche Auftragsläufe gestartet werden, während Sie die Änderungen vornehmen. Aktuelle Ausführungen oder Ausführungen, die durch „Jetzt ausführen“ ausgelöst werden, sind nicht betroffen. Weitere Informationen finden Sie unter Anhalten und Fortsetzen eines Auftragszeitplans.

Überprüfen der Ausführungs-ID durch Auftrags-API-Endpunkte

15. bis 21. Juli 2020: Version 3.24

Die API-Endpunkte jobs/runs/cancel und jobs/runs/output überprüfen nun, ob der run_id-Parameter gültig ist. Für ungültige Parameter geben diese API-Endpunkte jetzt den HTTP-Statuscode 400 anstelle von Code 500 zurück.

Verwenden von Microsoft Entra ID-Token zum Autorisieren der Databricks-REST-API (GA)

15. bis 21. Juli 2020: Version 3.24

Die Verwendung von Microsoft Entra ID-Tokens zur Authentifizierung bei der Workspace API ist jetzt allgemein verfügbar. Mithilfe von Microsoft Entra ID-Token können Sie die Erstellung und Einrichtung neuer Arbeitsbereiche automatisieren. Dienstprinzipale sind Anwendungsobjekte in Microsoft Entra ID. Sie können auch Dienstprinzipale innerhalb Ihrer Azure Databricks-Arbeitsbereiche verwenden, um Workflows zu automatisieren. Details finden Sie in unter Microsoft Entra ID (früher Azure Active Directory)-Token.

Automatisches Formatieren von SQL in Notebooks

15. bis 21. Juli 2020: Version 3.24

Sie können jetzt SQL Notebookzellen über eine Tastenkombination, das Befehlskontextmenü und das Menü „Bearbeiten“ des Notebooks formatieren (wählen Sie Bearbeiten > SQL-Zellen formatieren aus). SQL-Formatierung erleichtert das Lesen und Verwalten von Code mit geringem Aufwand. Es funktioniert sowohl für SQL-Notebooks als auch für %sql-Zellen.

Formatieren einer SQL-Notebookzelle

Reproduzierbare Installationsreihenfolge für Maven- und CRAN-Bibliotheken

1. bis 9. Juli 2020: Version 3.23

Azure Databricks verarbeitet jetzt Maven- und CRAN-Bibliotheken in der Reihenfolge, in der sie im Cluster installiert wurden.

Übernehmen der Kontrolle über die persönlichen Zugriffstoken Ihrer Benutzer mit der Tokenverwaltungs-API (Public Preview)

1. bis 9. Juli 2020: Version 3.23

Jetzt können Azure Databricks-Administratoren die Token-Verwaltungs-API verwenden, um die Azure Databricks persönlichen Zugriffstoken ihrer Benutzer zu verwalten:

  • Überwachen und Widerrufen der persönlichen Zugriffstoken von Benutzer*innen
  • Steuern der Lebensdauer zukünftiger Token in Ihrem Arbeitsbereich
  • Kontrollieren Sie, welche Benutzer Token erstellen und verwenden können.

Siehe Überwachen und Verwalten von persönlichen Zugriffstoken.

Wiederherstellen von Notebookzellen

1. bis 9. Juli 2020: Version 3.23

Sie können jetzt Notebookzellen wiederherstellen, die mithilfe der Tastenkombination (Z) ausgeschnitten wurden, oder indem Sie Bearbeiten > Zellenausschnitt rückgängig machen auswählen. Diese Funktionalität entspricht der Funktionalität zum Rückgängig machen gelöschter Zellen.

Zuweisen der Berechtigung KANN VERWALTEN für Aufträge zu Benutzern ohne Administratorrechte

1. bis 9. Juli 2020: Version 3.23

Sie können jetzt Benutzern und Gruppen ohne Administratorrechte die KANN VERWALTEN-Berechtigung für Aufträge zuweisen. Mit dieser Berechtigungsstufe können Benutzer alle Einstellungen für den Auftrag verwalten, z. B. das Zuweisen von Berechtigungen, das Ändern des Besitzers und das Ändern der Clusterkonfiguration (z. B. hinzufügen von Bibliotheken und ändern der Clusterspezifikation). Weitere Informationen finden Sie unter Steuern des Zugriffs auf einen Auftrag.

Azure Databricks-Benutzer ohne Administratorrechte können Elemente mithilfe der SCIM API anhand des Benutzernamens anzeigen und filtern.

1. bis 9. Juli 2020: Version 3.23

Benutzer ohne Administratorrechte können jetzt Benutzernamen anzeigen und Benutzer mithilfe des SCIM-/Benutzerendpunkts nach Benutzername filtern.

1. bis 9. Juli 2020: Version 3.23

Wenn Sie nun die Details für eine Auftragsausleitung anzeigen, können Sie auf einen Link zur Clusterkonfigurationsseite klicken, um die Clusterspezifikation anzuzeigen. Zuvor mussten Sie die Auftrags-ID aus der URL kopieren und zur Clusterliste wechseln, um danach zu suchen.

Clusterlink für Auftragsausführungen