Februar 2019

Diese Features und Azure Databricks Plattformverbesserungen wurden im Februar 2019 veröffentlicht.

Hinweis

Releases werden ge staged. Ihr Azure Databricks-Konto wird möglicherweise erst bis zu einer Woche nach dem ersten Veröffentlichungsdatum aktualisiert.

Databricks Light allgemein verfügbar

26. Februar – 5. März 2019: Version 2.92

Databricks Light (auch als Data Engineering Light bezeichnet) ist jetzt verfügbar. Databricks Light ist die Databricks-Paketerstellung der Open Source-Apache Spark Runtime. Es bietet eine Runtimeoption für Aufträge, die ohne die Vorteile der erweiterten Leistung, Zuverlässigkeit oder automatischen Skalierung auskommen, die Databricks Runtime bietet. Databricks Light kann nur verwendet werden, wenn Sie einen Cluster zum Ausführen eines JAR-, Python- oder spark-submit-Auftrags erstellen. Für Cluster, in denen Sie Workloads für interaktive oder Notebookaufträge ausführen, steht diese Runtime nicht zur Verfügung. Weitere Informationen finden Sie unter Databricks Light.

Verwalteter MLflow für Azure Databricks (Public Preview)

26. Februar – 5. März 2019: Version 2.92

MLflow ist eine Open-Source-Plattform für die Verwaltung des gesamten Machine Learning-Lebenszyklus. Es werden drei primäre Funktionen behandelt:

  • Nachverfolgen von Experimenten zum Aufzeichnen und Vergleichen von Parametern und Ergebnissen.
  • Verwalten und Bereitstellen von Modellen aus einer Vielzahl von ML Bibliotheken bis hin zu einer Vielzahl von Modellbereitstellungs- und Rückschlussplattformen.
  • Verpacken von ML Code in einer wiederverwendbaren, reproduzierbaren Form, die für andere Data Scientists freigegeben oder in die Produktion übertragen werden kann.

Azure Databricks bietet jetzt eine vollständig verwaltete und gehostete Version von MLflow, die in Unternehmenssicherheitsfeatures, Hochverfügbarkeit und andere Azure Databricks Arbeitsbereichsfeatures wie Experimentverwaltung, Ausführungsverwaltung und Aufzeichnung von Notebookrevisionen integriert ist. MLflow in Azure Databricks bietet eine integrierte Oberfläche, über die die Trainingsläufe von Machine Learning-Modellen in einer sicheren Umgebung nachverfolgt und Machine Learning-Projekte ausgeführt werden können. Durch die Verwendung von verwaltetem MLflow auf Azure Databricks profitieren Sie von den Vorteilen beider Plattformen, einschließlich:

  • Arbeitsbereiche: Gemeinsames Nachverfolgen und Organisieren von Experimenten und Ergebnissen in Azure Databricks Arbeitsbereichen mit einem gehosteten MLflow-Nachverfolgungsserver und einer integrierten Experimentoberfläche. Wenn Sie MLflow in Notebooks verwenden, erfasst Azure Databricks automatisch Notebookrevisionen, sodass Sie den gleichen Code reproduzieren und später ausgeführt werden können.
  • Sicherheit: Nutzen Sie ein gemeinsames Sicherheitsmodell für den gesamten ML Lebenszyklus über ACLs.
  • Jobs: Führen Sie MLflow-Projekte als Azure Databricks Aufträge remote und direkt aus Azure Databricks Notebooks aus.

Hier sehen Sie eine Demo eines Nachverfolgungsworkflows in einem Azure Databricks-Arbeitsbereich:

Track runs and organize experiment workflow

Weitere Informationen finden Sie unter Experimente und Ausführen von MLflow-Projekten auf Azure Databricks.

Azure Data Lake Storage Gen2-Connector allgemein verfügbar

15. Februar 2019

Azure Data Lake Storage Gen2 (ADLS Gen2), die Data Lake-Lösung der nächsten Generation für Big Data-Analysen, ist jetzt GA, ebenso wie der ADLS Gen2 Connector für Azure Databricks. Wir freuen uns auch bekanntzugeben, dass ADLS Gen2 Databricks Delta unterstützt, wenn Sie Cluster auf Databricks Runtime 5.2 und höher ausführen.

Python 3 jetzt Standard bei der Clustererstellung

12.-19. Februar 2019: Version 2.91

Die Python-Standardversion für Cluster, die über die Benutzeroberfläche erstellt wurden, wurde von Python 2 auf Python 3 umgestellt. Die Standardeinstellung für Cluster, die mit der REST-API erstellt wurden, ist weiterhin Python 2.

Vorhandene Cluster ändern ihre Python-Versionen nicht. Wenn Sie jedoch beim Erstellen neuer Cluster die Python 2-Standardeinstellung verwendet haben, müssen Sie die Auswahl Ihrer Python-Version berücksichtigen.

Default Python version

Weitere Informationen finden Sie unter Docker-Images.

Delta Lake allgemein verfügbar

1. Februar 2019

Jetzt können alle Benutzer die Vorteile der leistungsstarken Transaktionsspeicherebene und der superschnellen Lesevorgänge von Databricks Delta nutzen: Ab dem 1. Februar ist Delta Lake gaverfügbar und in allen unterstützten Versionen von Databricks Runtime verfügbar. Informationen zu Delta finden Sie im Delta Lake- und Delta Engine-Handbuch.