Databricks Runtime voor Machine Learning

Databricks Runtime voor Machine Learning (Databricks Runtime ML) automatiseert het maken van een cluster dat is geoptimaliseerd voor machine learning. Databricks Runtime ML-clusters bevatten de populairste machine learning-bibliotheken, zoals TensorFlow, PyTorch, Keras en XGBoost, en bevatten ook bibliotheken die vereist zijn voor gedistribueerde training, zoals Horovod. Met behulp Databricks Runtime ML het maken van clusters sneller en zorgt u ervoor dat de geïnstalleerde bibliotheekversies compatibel zijn.

Zie databricksMachine Learning voor volledige informatie over het gebruik van Azure Databricks voor machine learning en deep learning.

Zie de opmerkingen bij de release voor Databricks Runtime ML inhoud van elke versie.

Databricks Runtime ML is gebaseerd op Databricks Runtime. De Databricks Runtime 7.3 LTS voor Machine Learning is bijvoorbeeld gebaseerd op Databricks Runtime 7.3 LTS. De bibliotheken die zijn opgenomen in de Databricks Runtime worden vermeld in de Databricks Runtime release-opmerkingen.

Inleiding tot Databricks Runtime voor Machine Learning

Deze zelfstudie is ontworpen voor nieuwe gebruikers van Databricks Runtime ML. Het duurt ongeveer 10 minuten en toont een volledig end-to-end voorbeeld van het laden van tabellaire gegevens, het trainen van een model, gedistribueerde afstemming van hyperparameters en modeldeferentie. Het laat ook zien hoe u de MLflow-API en het MLflow-modelregister gebruikt.

Notebook voor databricks-zelfstudie

Notebook downloaden

Bibliotheken die zijn opgenomen in Databricks Runtime ML

De Databricks Runtime ML bevat diverse populaire ML bibliotheken. De bibliotheken worden bijgewerkt met elke release met nieuwe functies en oplossingen.

Azure Databricks heeft een subset van de ondersteunde bibliotheken aangewezen als bibliotheken in de bovenste laag. Voor deze bibliotheken biedt Azure Databricks een snellere updatefrequentie, het bijwerken naar de nieuwste pakketreleases met elke runtime-release (afhankelijkheidsconflicten voorkomen). Azure Databricks biedt ook geavanceerde ondersteuning, testen en ingesloten optimalisaties voor bibliotheken op het hoogste niveau.

Zie de volgende artikelen voor elke beschikbare runtime voor een volledige lijst van de bovenste laag en andere beschikbare bibliotheken:

Het gebruik van Databricks Runtime ML

Naast de vooraf geïnstalleerde bibliotheken verschillen de Databricks Runtime ML van Databricks Runtime in de clusterconfiguratie en in de manier waarop u Python-pakketten beheert.

Een cluster maken met Databricks Runtime ML

Wanneer u een cluster maakt,selecteert u Databricks Runtime ML versie in de Databricks Runtime versie. Er zijn zowel CPU- als GPU-ML runtimes beschikbaar.

Selecteer Databricks Runtime ML

Als u een runtime met GPU ML, wordt u gevraagd om een compatibel stuurprogrammatype en werktype te selecteren. Incompatibele instantietypen worden grijs weergegeven in de vervolgkeuzen. Instantietypen met GPU-functie worden vermeld onder het label GPU-Accelerated.

Waarschuwing

Bibliotheken in uw werkruimte die automatisch in alle clusters worden geïnstalleerd, kunnen conflicteren met de bibliotheken die zijn opgenomen in Databricks Runtime ML. Voordat u een cluster met Databricks Runtime ML, schakelt u het selectievakje Automatisch installeren op alle clusters uit voor conflicterende bibliotheken.

Python-pakketten beheren

In Databricks Runtime 9.0 ML en hoger wordt virtualenv Package Manager gebruikt om Python-pakketten te installeren. Alle Python-pakketten worden geïnstalleerd in één omgeving: /databricks/python3 .

In Databricks Runtime 8.4 ML en lager wordt Conda-pakketbeheer gebruikt om Python-pakketten te installeren. Alle Python-pakketten worden geïnstalleerd in één omgeving: op clusters met Python 2 en /databricks/python2 op clusters die gebruikmaken van Python /databricks/python3 3. Schakelen tussen Conda-omgevingen (of het activeren van) Conda-omgevingen wordt niet ondersteund.

Zie Bibliotheken voor meer informatie over het beheren van Python-bibliotheken.

Ondersteuning voor geautomatiseerde machine learning

Databricks Runtime ML bevat hulpprogramma's voor het automatiseren van het modelontwikkelingsproces en helpt u efficiënt het best presterende model te vinden.

  • AutoML maakt, tunes en evalueert automatisch een set modellen en maakt een Python-notebook met de broncode voor elke uitvoering, zodat u de code kunt controleren, reproduceren en wijzigen.
  • Beheerde MLFlow beheert de end-to-end modellevenscyclus, inclusief het bijhouden van experimentele uitvoeringen, het implementeren en delen van modellen en het onderhouden van een gecentraliseerd modelregister.
  • Hyperopt,uitgebreid met de klasse , automatiseert en distribueert SparkTrials ML van modelparameters.