Vorbereiten von Daten und Umgebungen für ML und DL

Artikel
03/01/2024

In diesem Abschnitt wird beschrieben, wie Sie Ihre Daten und Ihre Azure Databricks-Umgebung für maschinelles Lernen und Deep Learning vorbereiten.

Vorbereiten von Daten

Die Artikel in diesem Abschnitt behandeln Aspekte des Ladens und Vorverarbeitens von Daten, die für ML- und DL-Anwendungen spezifisch sind.

Vorbereiten der Umgebung

Databricks Runtime für Machine Learning (Databricks Runtime ML) ist eine für Machine Learning und Data Science optimierte, sofort einsatzbereite Umgebung. Databricks Runtime ML beinhaltet zahlreiche externe Bibliotheken (einschließlich TensorFlow, PyTorch, Horovod, Scikit-learn und XGBoost) und bietet Erweiterungen zur Verbesserung der Leistung. Hierzu zählen unter anderem die GPU-Beschleunigung in XGBoost, verteiltes Deep Learning mit HorovodRunner und das Setzen von Modellprüfpunkten mithilfe einer DBFS-FUSE-Einbindung (Databricks File System, Databricks-Dateisystem).

Wenn Sie Databricks Runtime ML verwenden möchten, wählen Sie bei der Clustererstellung die ML-Version der Runtime aus.

Hinweis

Um in Unity Catalog auf Daten für Workflows zum maschinellen Lernen zuzugreifen, muss der Zugriffsmodus für den Cluster auf Einzelbenutzer (zugewiesen) eingestellt sein. Geteite Cluster sind nicht mit Databricks Runtime für Machine Learning kompatibel.

Installieren von Bibliotheken

Sie können zusätzliche Bibliotheken installieren, um eine benutzerdefinierte Umgebung für Ihr Notebook oder Ihren Cluster zu erstellen.

Um eine Bibliothek für alle Notebooks verfügbar zu machen, die in einem Cluster ausgeführt werden, müssen Sie eine Clusterbibliothek erstellen. Sie können bei der Erstellung auch ein init-Skript verwenden, um Bibliotheken in Clustern zu installieren.
Verwenden Sie notebookspezifische Python-Bibliotheken, um eine Bibliothek zu installieren, die nur für eine bestimmte Notebooksitzung verfügbar ist.

Verwenden von GPU-Clustern

Zur Beschleunigung von Deep Learning-Aufgaben können GPU-Cluster erstellt werden. Weitere Informationen zum Erstellen von Azure Databricks-GPU-Rechnern finden Sie unter GPU-fähige Rechner. Databricks Runtime ML beinhaltet GPU-Hardwaretreiber und NVIDIA-Bibliotheken wie CUDA.

Vorbereiten von Daten und Umgebungen für ML und DL