Databricks Runtime für Machine Learning

Mit Databricks Runtime für Machine Learning (Databricks Runtime ML) wird die Erstellung eines Clusters für das maschinelle Lernen optimiert. Databricks Runtime ML-Cluster enthalten die beliebtesten Machine Learning-Bibliotheken, z. B. TensorFlow, PyTorch, Keras und XGBoost, sowie die erforderlichen Bibliotheken für das verteilte Training, z. B. Horovod. Durch die Verwendung von Databricks Runtime ML wird die Clustererstellung beschleunigt und sichergestellt, dass die installierten Bibliotheksversionen kompatibel sind.

Vollständige Informationen zur Verwendung von Azure Databricks für Maschinelles Lernen und Deep Learning finden Sie im Leitfaden zu Databricks Machine Learning.

Informationen zum Inhalt jeder Databricks Runtime ML Version finden Sie in den Versionshinweisen.

Databricks Runtime ML basiert auf Databricks Runtime. Beispielsweise basiert Databricks Runtime 7.3 LTS für Machine Learning auf Databricks Runtime 7.3 LTS. Die im Basis-Databricks Runtime enthaltenen Bibliotheken sind in den Databricks Runtime Versionshinweisenaufgeführt.

Einführung in Databricks Runtime für Machine Learning

Dieses Tutorial richtet sich an neue Benutzer von Databricks Runtime ML. Die Bearbeitung dauert etwa 10 Minuten und zeigt ein vollständiges End-to-End-Beispiel für das Laden von tabellenbasierten Daten, das Trainieren eines Modells, die Optimierung verteilter Hyperparameter und den Modellrückschluss. Außerdem wird die Verwendung der MLflow-API und der MLflow-Modellregistrierung veranschaulicht.

Databricks-Tutorialnotebook

Notebook abrufen

In Databricks Runtime ML enthaltene Bibliotheken

Die Databricks Runtime ML enthält eine Vielzahl beliebter ML Bibliotheken. Die Bibliotheken werden mit jedem Release aktualisiert, um neue Features und Fehlerbehebungen einzuschließt.

Azure Databricks hat eine Teilmenge der unterstützten Bibliotheken als Bibliotheken der obersten Ebene festgelegt. Für diese Bibliotheken bietet Azure Databricks einen schnelleren Update-Rhythmus, indem mit jedem Runtime-Release auf die neuesten Paketversionen aktualisiert wird (ohne Abhängigkeitskonflikte). Azure Databricks bietet auch erweiterte Unterstützung, Tests und eingebettete Optimierungen für Bibliotheken der obersten Ebene.

Eine vollständige Liste der Bibliotheken der obersten Ebene und anderer bereitgestellter Bibliotheken finden Sie in den folgenden Artikeln für jede verfügbare Runtime:

Verwenden von Databricks Runtime ML

Zusätzlich zu den vorinstallierten Bibliotheken unterscheidet sich Databricks Runtime ML von Databricks Runtime in der Clusterkonfiguration und in der Verwaltung von Python-Paketen.

Erstellen eines Clusters mit Databricks Runtime ML

Wenn Sie einen Cluster erstellen,wählen Sie eine Databricks Runtime ML Version aus der Dropdown-Databricks Runtime Version aus. Cpu- und GPU-fähige ML Runtimes sind verfügbar.

Select Databricks Runtime ML

Wenn Sie eine GPU-fähige ML Runtime auswählen, werden Sie aufgefordert, einen kompatiblen Treibertyp und Workertypauszuwählen. Inkompatible Instanztypen sind in den Dropdowns abgeblendet. GPU-fähige Instanztypen werden unter der Bezeichnung GPU-Accelerated (GPU-beschleunigt) aufgeführt.

Warnung

Bibliotheken in Ihrem Arbeitsbereich, die automatisch in allen Clustern installiert werden, können mit den in Databricks Runtime ML enthaltenen Bibliotheken in Konflikt treten. Deaktivieren Sie vor dem Erstellen eines Clusters mit Databricks Runtime ML das Kontrollkästchen Automatisch auf allen Clustern installieren für in Konflikt stehende Bibliotheken.

Verwalten von Python-Paketen

In Databricks Runtime 9.0 ML und höher wird der virtualenv-Paket-Manager zum Installieren von Python-Paketen verwendet. Alle Python-Pakete werden in einer einzigen Umgebung installiert: /databricks/python3 .

In Databricks Runtime 8.4 ML und darunter wird der Conda-Paket-Manager zum Installieren von Python-Paketen verwendet. Alle Python-Pakete werden in einer einzigen Umgebung installiert: /databricks/python2 in Clustern mit Python 2 und /databricks/python3 in Clustern mit Python 3. Das Wechseln (oder Aktivieren) von Conda-Umgebungen wird nicht unterstützt.

Informationen zum Verwalten von Python-Bibliotheken finden Sie unter Bibliotheken.

Unterstützung für automatisiertes maschinelles Lernen

Databricks Runtime ML enthält Tools zum Automatisieren des Modellentwicklungsprozesses und zur effizienten Suche nach dem leistungsfähigsten Modell.

  • AutoML erstellt, stimmt und wertet automatisch einen Satz von Modellen aus und erstellt ein Python-Notebook mit dem Quellcode für jede Ausführung, damit Sie den Code überprüfen, reproduzieren und ändern können.
  • Managed MLFlow verwaltet den End-to-End-Modelllebenszyklus, einschließlich der Nachverfolgung experimenteller Ausführungen, der Bereitstellung und Freigabe von Modellen und der Verwaltung einer zentralisierten Modellregistrierung.
  • Hyperopt,erweitert um die -Klasse, automatisiert und verteilt ML Modellparameteroptimierung.