Vorbereiten von Daten und Umgebungen für ML und DL
In diesem Abschnitt wird beschrieben, wie Sie Ihre Daten und Ihre Azure Databricks-Umgebung für maschinelles Lernen und Deep Learning vorbereiten.
Vorbereiten von Daten
Die Artikel in diesem Abschnitt behandeln Aspekte des Ladens und Vorverarbeitens von Daten, die für ML- und DL-Anwendungen spezifisch sind.
- Laden von Daten für maschinelles Lernen und Deep Learning
- Vorverarbeitung von Daten für maschinelles Lernen und Deep Learning
Vorbereiten der Umgebung
Databricks Runtime für Machine Learning (Databricks Runtime ML) ist eine für Machine Learning und Data Science optimierte, sofort einsatzbereite Umgebung. Databricks Runtime ML beinhaltet zahlreiche externe Bibliotheken (einschließlich TensorFlow, PyTorch, Horovod, Scikit-learn und XGBoost) und bietet Erweiterungen zur Verbesserung der Leistung. Hierzu zählen unter anderem die GPU-Beschleunigung in XGBoost, verteiltes Deep Learning mit HorovodRunner und das Setzen von Modellprüfpunkten mithilfe einer DBFS-FUSE-Einbindung (Databricks File System, Databricks-Dateisystem).
Wenn Sie Databricks Runtime ML verwenden möchten, wählen Sie bei der Clustererstellung die ML-Version der Runtime aus.
Hinweis
Um in Unity Catalog auf Daten für Workflows zum maschinellen Lernen zuzugreifen, muss der Zugriffsmodus für den Cluster auf Einzelbenutzer (zugewiesen) eingestellt sein. Geteite Cluster sind nicht mit Databricks Runtime für Machine Learning kompatibel.
Installieren von Bibliotheken
Sie können zusätzliche Bibliotheken installieren, um eine benutzerdefinierte Umgebung für Ihr Notebook oder Ihren Cluster zu erstellen.
- Um eine Bibliothek für alle Notebooks verfügbar zu machen, die in einem Cluster ausgeführt werden, müssen Sie eine Clusterbibliothek erstellen. Sie können bei der Erstellung auch ein init-Skript verwenden, um Bibliotheken in Clustern zu installieren.
- Verwenden Sie notebookspezifische Python-Bibliotheken, um eine Bibliothek zu installieren, die nur für eine bestimmte Notebooksitzung verfügbar ist.
Verwenden von GPU-Clustern
Zur Beschleunigung von Deep Learning-Aufgaben können GPU-Cluster erstellt werden. Weitere Informationen zum Erstellen von Azure Databricks-GPU-Rechnern finden Sie unter GPU-fähige Rechner. Databricks Runtime ML beinhaltet GPU-Hardwaretreiber und NVIDIA-Bibliotheken wie CUDA.