Juni 2019

Diese Features und Azure Databricks-Plattformverbesserungen wurden im Juni 2019 veröffentlicht.

Hinweis

Releases werden gestaffelt. Ihr Azure Databricks-Konto wird möglicherweise erst eine Woche nach dem Datum der ersten Veröffentlichung aktualisiert.

Lsv2-Instanzunterstützung allgemein verfügbar

24. bis 26. Juni 2019: Version 2.100

Azure Databricks unterstützt jetzt vollständig die Lsv2-VM-Serie für Workloads mit hohem Durchsatz und hoher IOPS-Leistung.

RStudio-Integration nicht mehr auf Cluster mit hoher Parallelität beschränkt

6. bis 11. Juni 2019: Version 2.99

Sie können jetzt RStudio Server für Standardcluster in Azure Databricks aktivieren, und zwar zusätzlich zu den bereits unterstützten Clustern mit hoher Parallelität. Unabhängig vom Clustermodus ist es für die Integration von RStudio Server weiterhin erforderlich, dass Sie die Option Automatische Beendigung für Ihren Cluster deaktivieren. Weitere Informationen finden Sie unter RStudio in Azure Databricks.

MLflow 1.0

3\. Juni 2019

MLflow ist eine Open-Source-Plattform zur Verwaltung des gesamten Machine Learning-Lebenszyklus. Mit MLflow können Data Scientists Experimente lokal oder in der Cloud nachverfolgen und freigeben, Modelle frameworkübergreifend packen und freigeben und praktisch überall bereitstellen.

Wir freuen uns, die Veröffentlichung von MLflow 1.0 heute bekanntgeben zu können. Das Release 1.0 kennzeichnet nicht nur die Reife und Stabilität der APIs, sondern bietet nun auch eine Reihe häufig angefragter Features und Verbesserungen:

  • Die CLI wurde neu organisiert und verfügt jetzt über dedizierte Befehle für Artefakte, Modelle, Datenbanken (Nachverfolgungsdatenbank) und Server (Nachverfolgungsserver).
  • Die Nachverfolgungsserversuche unterstützt eine vereinfachte Version der SQL WHERE-Klausel. Zusätzlich zur Unterstützung von Metriken und Parametern wurde die Suche um einige Ausführungsattribute sowie Benutzer- und Systemtags erweitert.
  • Unterstützung für x-Koordinaten in der Nachverfolgungs-API wurde hinzugefügt. Die Visualisierungskomponenten der MLflow-Benutzeroberfläche unterstützen jetzt auch das Zeichnen von Metriken für bereitgestellte x-Koordinatenwerte.
  • Ein runs/log-batch-REST-API-Endpunkt sowie Python-, R- und Java-Methoden zum Protokollieren mehrerer Metriken, Parameter und Tags mit einer einzigen API-Anforderung wurden hinzugefügt.
  • Für die Nachverfolgung wird der MLflow 1.0-Client jetzt auch unter Windows unterstützt.
  • Unterstützung für HDFS als Back-End des Artefaktspeichers wurde hinzugefügt.
  • Ein Befehl zum Erstellen eines Docker-Containers, dessen Standardeinstiegspunkt dem angegebenen MLflow-Python-Funktionsmodell an Port 8080 innerhalb des Containers zur Verfügung steht, wurde hinzugefügt.
  • Eine experimentelle Variante des ONNX-Modells wurde hinzugefügt.

Sie können die vollständige Liste der Änderungen im MLflow-Änderungsprotokoll einsehen.

Databricks Runtime 5.4 mit Conda (Beta)

3\. Juni 2019

Wichtig

Databricks Runtime mit Conda befindet sich in der Betaphase. Der Inhalt der unterstützten Umgebungen kann sich in künftigen Betaversionen ändern. Änderungen können die Liste der Pakete oder die Versionen der installierten Pakete betreffen. Databricks Runtime 5.4 mit Conda basiert auf Databricks Runtime 5.4 (nicht unterstützt).

Wir freuen uns, Databricks Runtime 5.4 mit Conda vorstellen zu können, womit Sie die Vorteile von Conda für die Verwaltung von Python-Bibliotheken und -Umgebungen nutzen können. Diese Runtime bietet zwei Conda-Stammumgebungsoptionen bei der Clustererstellung:

  • Die Databricks Standard-Umgebung enthält aktualisierte Versionen vieler beliebter Python-Pakete. Diese Umgebung ist als direkter Ersatz für vorhandene Notebooks gedacht, die in Databricks Runtime ausgeführt werden. Dies ist die standardmäßige auf Databricks mit Conda basierende Laufzeitumgebung.
  • Die Databricks Minimal-Umgebung enthält die notwendigen Pakete für die Python-Notebookfunktionen von PySpark und Databricks. Diese Umgebung ist ideal, wenn Sie die Laufzeit mit verschiedenen Python-Paketen anpassen möchten.

Die vollständigen Versionshinweise finden Sie unter Databricks Runtime 5.4 mit Conda (nicht unterstützt).

Databricks Runtime 5.4 für Machine Learning

3\. Juni 2019

Databricks Runtime 5.4 ML basiert auf Databricks Runtime 5.4 (nicht unterstützt). Es enthält viele beliebte Machine Learning-Bibliotheken, darunter TensorFlow, PyTorch, Keras und XGBoost, und bietet verteiltes TensorFlow-Training mit Horovod.

Es bietet die folgenden neuen Features:

  • MLlib-Integration mit MLflow (Public Preview).
  • Hyperopt mit vorinstallierter neuer SparkTrials-Klasse (Public Preview).
  • Die HorovodRunner-Ausgabe, die von Horovod an den Spark-Treiberknoten gesendet wird, ist jetzt in Notebookzellen sichtbar.
  • Vorinstalliertes XGBoost Python-Paket.

Weitere Informationen finden Sie unter Databricks Runtime 5.4 für ML (nicht unterstützt).

Databricks Runtime 5.4

3\. Juni 2019

Databricks Runtime 5.4 ist jetzt verfügbar. Databricks Runtime 5.4 enthält Apache Spark 2.4.2, aktualisierte Python-, R-, Java- und Scala-Bibliotheken und die folgenden neuen Features:

  • Delta Lake in Databricks fügt automatische Optimierung hinzu (Public Preview)
  • Verwenden Ihrer bevorzugten IDE und des Notebookservers mit Databricks Connect
  • Bibliothekshilfsprogramme allgemein verfügbar
  • Binärdateidatenquelle

Weitere Informationen finden Sie unter Databricks Runtime 5.4 (nicht unterstützt).