Mai 2020

Diese Features und Azure Databricks-Plattformverbesserungen wurden im Mai 2020 veröffentlicht.

Hinweis

Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst eine Woche nach dem Datum der ersten Veröffentlichung aktualisiert.

Virtuelle Computer der Easv4-Serie (Betaversion)

29. Mai 2020

Azure Databricks bietet jetzt Beta-Unterstützung für VMs der Easv4-Serie, die eine SSD Premium-Version verwenden und eine verstärkte maximale Frequenz von 3,35 GHz erreichen können. Diese Instanztypen können ihre Workloadleistung bei speicherintensiven Unternehmensanwendungen optimieren.

Allgemeine Verfügbarkeit von Databricks Runtime 6.6 für Genomics

26. Mai 2020

Databricks Runtime 6.6 für Genomics basiert auf Databricks Runtime 6.6 und enthält die folgenden neuen Features:

  • GFF3-Reader
  • Unterstützung für benutzerdefiniertes Referenzgenom
  • Beispielbezogene Timeouts von Pipelines
  • BAM-Exportoption
  • Manifestblobs

Allgemeine Verfügbarkeit von Databricks Runtime 6.6 ML

26. Mai 2020

Databricks Runtime 6.6 ML basiert auf Databricks Runtime 6.6 und enthält die folgenden neuen Features:

  • Upgrade von „mlflow“: 1.7.0 auf 1.8.0

Weitere Informationen finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 6.6 ML (nicht unterstützt).

Allgemeine Verfügbarkeit von Databricks Runtime 6.6

26. Mai 2020

Databricks Runtime 6.6 bietet viele Bibliotheksupgrades und neue Features, einschließlich der folgenden Delta Lake-Features:

  • Sie können jetzt das Schema der Tabelle mit dem merge-Vorgang automatisch weiterentwickeln lassen. Dies ist nützlich in Szenarien, in denen Sie ein Upsert von Änderungsdaten in eine Tabelle ausführen möchten und sich das Schema der Daten im Laufe der Zeit ändert. Statt Schemaänderungen vor dem Upserting zu erkennen und anzuwenden, kann merge das Schema gleichzeitig weiterentwickeln und ein Upsert der Änderungen ausführen. Weitere Informationen finden Sie unter Automatische Schemaentwicklung für Delta Lake-Merge.
  • Die Leistung von Zusammenführungsvorgängen, bei denen es nur übereinstimmende Klauseln gibt (also nur update- und delete-Aktionen, aber keine insert-Aktion), wurde verbessert.
  • Parquet-Tabellen, auf die im Hive-Metastore verwiesen wird, können jetzt über ihre Tabellenbezeichner mithilfe von CONVERT TO DELTA in Delta Lake konvertiert werden.

Weitere Informationen finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 6.6 (nicht unterstützt).

DBFS-REST-API: Größenbeschränkung für das Löschen von Endpunkten

21. bis 28. Mai 2020: Version 3.20

Wenn Sie eine große Anzahl von Dateien rekursiv mithilfe der DBFS-API löschen, wird der Löschvorgang in Schritten ausgeführt. Der Aufruf gibt nach ungefähr 45 Sekunden eine Antwort mit einer Fehlermeldung zurück, in der Sie aufgefordert werden, den Löschvorgang so lange erneut aufzurufen, bis die Verzeichnisstruktur vollständig gelöscht wurde. Beispiele:

{
  "error_code":"PARTIAL_DELETE","message":"The requested operation has deleted 324 files. There are more files remaining. You must make another request to delete more."
}

Einfaches Anzeigen zahlreicher registrierter MLflow-Modelle

21. bis 28. Mai 2020: Version 3.20

Die MLflow-Modellregistrierung unterstützt jetzt die serverseitige Suche und Paginierung für registrierte Modelle. Dies ermöglicht es Organisationen mit einer großen Anzahl von Modellen, eine effiziente Auflistung und Suche durchzuführen. Wie zuvor können Sie Modelle nach Namen durchsuchen und Ergebnisse nach Name oder dem Zeitpunkt der letzten Aktualisierung geordnet abrufen. Wenn Sie jedoch eine große Anzahl von Modellen haben, werden die Seiten viel schneller geladen, und die Suche ruft die aktuellste Ansicht der Modelle ab.

Bibliotheken, die für die Installation auf allen Clustern konfiguriert sind, werden nicht auf Clustern mit Databricks Runtime 7.0 und höher installiert.

21. bis 28. Mai 2020: Version 3.20

In Databricks Runtime 7.0. und höher verwendet die zugrunde liegende Version von Apache Spark Scala 2.12. Da mit Scala 2.11 kompilierte Bibliotheken Databricks Runtime 7.0-Cluster auf unerwartete Weise deaktivieren können, installieren Cluster, in denen Databricks Runtime 7.0 und höher ausgeführt wird, keine Bibliotheken, die zur Installation in allen Clustern konfiguriert wurden. Auf der Registerkarte „Bibliotheken“ für Cluster wird der Status Skipped und eine „Eingestellte Unterstützung“-Meldung im Zusammenhang mit den Änderungen bei der Bibliotheksverarbeitung angezeigt.

Wenn Sie einen Cluster haben, der mit einer früheren Version von Databricks Runtime erstellt wurde, bevor Version 3.20 für Ihren Arbeitsbereich veröffentlicht wurde, und Sie diesen Cluster jetzt bearbeiten, um Databricks Runtime 7.0 verwenden zu können, werden alle Bibliotheken, die für die Installation in allen Clustern konfiguriert wurden, in diesem Cluster installiert. In diesem Fall können inkompatible JARs in den installierten Bibliotheken dazu führen, dass der Cluster deaktiviert wird. Die Problemumgehung besteht darin, entweder den Cluster zu klonen oder einen neuen Cluster zu erstellen.

Databricks Runtime 7.0 für Genomics (Betaversion)

21. Mai 2020

Databricks Runtime 7.0 für Genomics basiert auf Databricks Runtime 7.0 und enthält die folgenden Bibliotheksänderungen:

  • Die Bibliothek „ADAM“ wurde von Version 0.30.0 auf 0.32.0 aktualisiert.
  • Die Bibliothek „Hail“ ist in Databricks Runtime 7.0 für Genomics nicht enthalten, da es kein Release gibt, das auf Apache Spark 3.0 basiert.

Databricks Runtime 7.0 ML (Betaversion)

21. Mai 2020

Databricks Runtime 7.0 ML basiert auf Databricks Runtime 7.0 und verfügt über die folgenden neuen Features:

  • Notebookbezogene Python-Bibliotheken und benutzerdefinierte Umgebungen, die durch „Conda“- und „pip“-Befehle verwaltet werden
  • Updates für wichtige Python-Pakete, darunter „tensorflow“, „tensorboard“, „pytorch“, „xgboost“, „sparkdl“ und „hyperopt“
  • Neu hinzugefügte Python-Pakete: „lightgbm“, „nltk“, „petastorm“ und „plotly“
  • RStudio Server Open Source v1.2

Weitere Informationen finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 7.0 ML (nicht unterstützt).

Databricks Runtime 6.6 für Genomics (Betaversion)

7. Mai 2020

Databricks Runtime 6.6 für Genomics basiert auf Databricks Runtime 6.6 und enthält die folgenden neuen Features:

  • GFF3-Reader
  • Unterstützung für benutzerdefiniertes Referenzgenom
  • Beispielbezogene Timeouts von Pipelines
  • BAM-Exportoption
  • Manifestblobs

Databricks Runtime 6.6 ML (Betaversion)

7. Mai 2020

Databricks Runtime 6.6 ML basiert auf Databricks Runtime 6.6 und enthält die folgenden neuen Features:

  • Upgrade von „mlflow“: 1.7.0 auf 1.8.0

Weitere Informationen finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 6.6 ML (nicht unterstützt).

Databricks Runtime 6.6 (Betaversion)

7. Mai 2020

Databricks Runtime 6.6 (Betaversion) bietet viele Bibliotheksupgrades und neue Features, einschließlich der folgenden Delta Lake-Features:

  • Sie können jetzt das Schema der Tabelle mit dem merge-Vorgang automatisch weiterentwickeln lassen. Dies ist nützlich in Szenarien, in denen Sie ein Upsert von Änderungsdaten in eine Tabelle ausführen möchten und sich das Schema der Daten im Laufe der Zeit ändert. Statt Schemaänderungen vor dem Upserting zu erkennen und anzuwenden, kann merge das Schema gleichzeitig weiterentwickeln und ein Upsert der Änderungen ausführen. Weitere Informationen finden Sie unter Automatische Schemaentwicklung für Delta Lake-Merge.
  • Die Leistung von Zusammenführungsvorgängen, bei denen es nur übereinstimmende Klauseln gibt (also nur update- und delete-Aktionen, aber keine insert-Aktion), wurde verbessert.
  • Parquet-Tabellen, auf die im Hive-Metastore verwiesen wird, können jetzt über ihre Tabellenbezeichner mithilfe von CONVERT TO DELTA in Delta Lake konvertiert werden.

Weitere Informationen finden Sie in den vollständigen Versionshinweisen zu Databricks Runtime 6.6 (nicht unterstützt).

Auftragscluster nun mit Auftragsname und -ID gekennzeichnet

5. bis 12. Mai 2020: Version 3.19

Jobcluster werden automatisch mit dem Auftragsnamen und der Auftrags-ID gekennzeichnet. Die Tags werden in den abrechenbaren Nutzungsberichten angezeigt, sodass Sie Ihre DBU-Nutzung problemlos nach Auftrag zuordnen und Anomalien erkennen können. Die Tags werden in Clustertagspezifikationen bereinigt, z. B. zulässige Zeichen, maximale Größe und maximale Anzahl von Tags. Der Auftragsname ist im Tag RunName und die Auftrags-ID im Tag JobId enthalten.

Wiederherstellen gelöschter Notebookzellen

5. bis 12. Mai 2020: Version 3.19

Sie können jetzt gelöschte Zellen entweder mithilfe der Tastenkombination (Z) oder durch Auswählen von Bearbeiten > Undo Delete Cells (Löschen von Zellen rückgängig machen) wiederherstellen.

Warteschlangengrenzwert für ausstehende Aufträge

5. bis 12. Mai 2020: Version 3.19

Ein Arbeitsbereich ist jetzt auf 1.000 aktive Auftragsausführungen („wird ausgeführt“ und „ausstehend“) begrenzt. Da ein Arbeitsbereich auf 150 gleichzeitige Auftragsausführungen („wird ausgeführt“) begrenzt ist, kann er bis zu 850 Ausführungen in der ausstehenden Warteschlange enthalten.