Databricks Runtime für Machine Learning Databricks Runtime for Machine Learning

Databricks Runtime für Machine Learning (Databricks Runtime ml) automatisiert die Erstellung eines Clusters, der für Machine Learning optimiert ist.Databricks Runtime for Machine Learning (Databricks Runtime ML) automates the creation of a cluster optimized for machine learning. Databricks Runtime ml-Cluster enthalten die beliebtesten Machine Learning-Bibliotheken wie tensorflow, pytorch, keras und xgboost sowie Bibliotheken, die für verteilte Schulungen, wie Horovod, erforderlich sind.Databricks Runtime ML clusters include the most popular machine learning libraries, such as TensorFlow, PyTorch, Keras, and XGBoost, and also include libraries required for distributed training such as Horovod. Die Verwendung von Databricks Runtime ml beschleunigt die Cluster Erstellung und stellt sicher, dass die installierten Bibliotheksversionen kompatibel sind.Using Databricks Runtime ML speeds up cluster creation and ensures that the installed library versions are compatible.

Ausführliche Informationen zur Verwendung von Azure Databricks für Machine Learning und Deep Learning finden Sie unter Machine Learning und Deep Learning.For complete information about using Azure Databricks for machine learning and deep learning, see Machine learning and deep learning.

Informationen zum Inhalt der einzelnen Databricks Runtime ml-Version finden Sie in den Anmerkungenzu dieser Version.For information about the contents of each Databricks Runtime ML version, see the release notes.

Databricks Runtime ml basiert auf Databricks Runtime.Databricks Runtime ML is built on Databricks Runtime. Beispielsweise ist Databricks Runtime 7,3 LTS ml auf Databricks Runtime 7,3 LTS basiert.For example, Databricks Runtime 7.3 LTS ML is built on Databricks Runtime 7.3 LTS. Die Bibliotheken, die in der Basis Databricks Runtime enthalten sind, sind in den Anmerkungen zur Databricks Runtime Versionaufgeführt.The libraries included in the base Databricks Runtime are listed in the Databricks Runtime release notes.

Einführung in Databricks Runtime für Machine Learning Introduction to Databricks Runtime for Machine Learning

Dieses Tutorial wurde für neue Benutzer von Databricks Runtime ml entwickelt.This tutorial is designed for new users of Databricks Runtime ML. Es dauert ungefähr 10 Minuten, bis der Vorgang durchgeführt wird, und zeigt ein umfassendes End-to-End-Beispiel für das Laden von Tabellendaten, das Trainieren eines Modells, die Verteilung verteilter Hyperparameter und den Modell Rückschluss.It takes about 10 minutes to work through, and shows a complete end-to-end example of loading tabular data, training a model, distributed hyperparameter tuning, and model inference. Außerdem wird veranschaulicht, wie die mlflow-API und die mlflow-Modell Registrierung verwendet werden.It also illustrates how to use the MLflow API and MLflow Model Registry.

Databricks-Tutorial-NotebookDatabricks tutorial notebook

Notebook abrufenGet notebook

In Databricks Runtime ml enthaltene Bibliotheken Libraries included in Databricks Runtime ML

Hinweis

Bibliotheks Dienstprogramme sind in Databricks Runtime ml nicht verfügbar.Library utilities are not available in Databricks Runtime ML.

Die Databricks Runtime ml umfasst eine Vielzahl beliebter ml-Bibliotheken.The Databricks Runtime ML includes a variety of popular ML libraries. Die Bibliotheken werden mit jeder Version aktualisiert, um neue Features und Korrekturen zu enthalten.The libraries are updated with each release to include new features and fixes.

Azure Databricks hat eine Teilmenge der unterstützten Bibliotheken als Bibliotheken der obersten Ebene zugewiesen.Azure Databricks has designated a subset of the supported libraries as top-tier libraries. Für diese Bibliotheken bietet Azure Databricks eine schnellere Update Frequenz, die Aktualisierung auf die neuesten Paket Releases mit jeder Laufzeitversion (unter Abhängigkeit von Abhängigkeits Konflikten).For these libraries, Azure Databricks provides a faster update cadence, updating to the latest package releases with each runtime release (barring dependency conflicts). Azure Databricks bietet auch erweiterte Unterstützung, Tests und eingebettete Optimierungen für Bibliotheken der obersten Ebene.Azure Databricks also provides advanced support, testing, and embedded optimizations for top-tier libraries.

Eine vollständige Liste der obersten und anderen bereitgestellten Bibliotheken finden Sie in den folgenden Artikeln für jede verfügbare Laufzeit:For a full list of top-tier and other provided libraries, see the following articles for each available runtime:

Verwenden von Databricks Runtime mlHow to use Databricks Runtime ML

Zusätzlich zu den vorinstallierten Bibliotheken unterscheidet sich Databricks Runtime ml von Databricks Runtime in der Cluster Konfiguration und der Verwaltung von Python-Paketen.In addition to the pre-installed libraries, Databricks Runtime ML differs from Databricks Runtime in the cluster configuration and in how you manage Python packages.

Erstellen eines Clusters mit Databricks Runtime mlCreate a cluster using Databricks Runtime ML

Wenn Sie einen Cluster erstellen, wählen Sie in der Dropdown-Databricks Runtime Version eine Databricks Runtime ml-Version aus.When you create a cluster, select a Databricks Runtime ML version from the Databricks Runtime Version drop-down. Sowohl die CPU-als auch die GPU-aktivierten ml-Laufzeiten sind verfügbar.Both CPU and GPU-enabled ML runtimes are available.

Databricks Runtime ml auswählenSelect Databricks Runtime ML

Wenn Sie eine GPU-aktivierte ml-Laufzeit auswählen, werden Sie aufgefordert, einen kompatiblen Treibertyp und workertypauszuwählen.If you select a GPU-enabled ML runtime, you are prompted to select a compatible Driver Type and Worker Type. Nicht kompatible Instanztypen sind in den Dropdowns ausgegraut.Incompatible instance types are grayed out in the drop-downs. GPU-aktivierte Instanztypen werden unter der GPU-Accelerated- Bezeichnung aufgelistet.GPU-enabled instance types are listed under the GPU-Accelerated label.

Warnung

Bibliotheken in Ihrem Arbeitsbereich, die automatisch in allen Clustern installiert werden, können mit den in Databricks Runtime ml enthaltenen Bibliotheken in Konflikt stehen.Libraries in your workspace that automatically install into all clusters can conflict with the libraries included in Databricks Runtime ML. Bevor Sie einen Cluster mit Databricks Runtime ml erstellen, deaktivieren Sie das Kontrollkästchen automatisch auf allen Clustern installieren für widersprüchliche Bibliotheken.Before you create a cluster with Databricks Runtime ML, clear the Install automatically on all clusters checkbox for conflicting libraries.

Verwalten von python -Paketen Manage Python packages

In Databricks Runtime ml wird der Configuration Manager -Paket- Manager verwendet, um Python-Pakete zu installieren.In Databricks Runtime ML the Conda package manager is used to install Python packages. Alle Python-Pakete werden in einer einzigen Umgebung installiert: /databricks/python2 in Clustern, die python 2 verwenden, und /databricks/python3 in Clustern, die python 3 verwenden.All Python packages are installed inside a single environment: /databricks/python2 on clusters using Python 2 and /databricks/python3 on clusters using Python 3. Das wechseln (oder aktivieren) von-Umgebungen wird nicht unterstützt.Switching (or activating) Conda environments is not supported.

Weitere Informationen zum Verwalten von python-Bibliotheken finden Sie unter Bibliotheken.For information on managing Python libraries, see Libraries.

Automl-UnterstützungAutoML support

Databricks Runtime ml umfasst Tools zum Automatisieren des Modell Entwicklungsprozesses und hilft Ihnen, das Modell mit der besten Leistung zu finden.Databricks Runtime ML includes tools to automate the model development process and help you efficiently find the best performing model.

  • Verwalteter mlflow verwaltet den End-to-End-Modell Lebenszyklus, einschließlich der Nachverfolgung von experimentellen Ausführungen, der Bereitstellung und Freigabe von Modellen und der Verwaltung einer zentralisierten Modell Registrierung.Managed MLFlow manages the end-to-end model lifecycle, including tracking experimental runs, deploying and sharing models, and maintaining a centralized model registry.
  • Hyperopt, erweitert mit der- SparkTrials Klasse, automatisiert und verteilt die Optimierung von ml-Modellparametern.Hyperopt, augmented with the SparkTrials class, automates and distributes ML model parameter tuning.