Databricks Runtime för Machine Learning

Databricks Runtime för Machine Learning (Databricks Runtime ML) automatiserar skapandet av ett kluster som är optimerat för maskininlärning. Databricks Runtime ML-kluster innehåller de mest populära maskininlärningsbiblioteken, till exempel TensorFlow, PyTorch, Keras och XGBoost, och innehåller även bibliotek som krävs för distribuerad träning som Horovod. Med Databricks Runtime ML klusterskapandet snabbare och säkerställer att de installerade biblioteksversionerna är kompatibla.

Fullständig information om hur du använder Azure Databricks för maskininlärning och djupinlärning finns i Databricks Machine Learning guide.

Information om innehållet i varje version Databricks Runtime ML finns i viktig information.

Databricks Runtime ML bygger på Databricks Runtime. Till exempel Databricks Runtime 7.3 LTS för Machine Learning på Databricks Runtime 7.3 LTS. De bibliotek som ingår i Databricks Runtime listas i Databricks Runtime i .

Introduktion till Databricks Runtime för Machine Learning

Den här självstudien är utformad för nya användare Databricks Runtime ML. Det tar cirka 10 minuter att gå igenom och visar ett komplett exempel på inläsning av tabelldata, träning av en modell, justering av distribuerad hyperparameter och modellinferens. Den visar också hur du använder MLflow API och MLflow Model Registry.

Anteckningsbok för Databricks-självstudie

Hämta notebook-fil

Bibliotek som ingår i Databricks Runtime ML

Den Databricks Runtime ML innehåller en mängd olika populära ML bibliotek. Biblioteken uppdateras med varje version och innehåller nya funktioner och korrigeringar.

Azure Databricks har angett en delmängd av de bibliotek som stöds som bibliotek på den översta nivån. För dessa bibliotek ger Azure Databricks snabbare uppdateringsfrekvens och uppdatering till de senaste paketutgåren med varje körningsutgåver (utan beroendekonflikter). Azure Databricks även avancerad support, testning och inbäddade optimeringar för bibliotek på den översta nivån.

En fullständig lista över de översta och andra bibliotek som tillhandahålls finns i följande artiklar för varje tillgänglig körning:

Använda Databricks Runtime ML

Förutom de förinstallerade biblioteken skiljer sig Databricks Runtime ML från Databricks Runtime i klusterkonfigurationen och i hur du hanterar Python-paket.

Skapa ett kluster med Databricks Runtime ML

När du skapar ett klusterväljer du Databricks Runtime ML version från listrutan Databricks Runtime version. Både PROCESSOR- och GPU-aktiverade ML är tillgängliga.

Välj Databricks Runtime ML

Om du väljer en GPU-aktiverad ML måste du välja en kompatibel drivrutinstyp ocharbetstyp. Inkompatibla instanstyper är nedtonade i listrutan. GPU-aktiverade instanstyper visas under etiketten GPU-Accelerated (GPU-accelererad).

Varning

Bibliotek på din arbetsyta som installeras automatiskt i alla kluster kan vara i konflikt med biblioteken som ingår i Databricks Runtime ML. Innan du skapar ett kluster Databricks Runtime ML avmarkerar du kryssrutan Installera automatiskt på alla kluster för bibliotek i konflikt.

Hantera Python-paket

I Databricks Runtime 9.0 ML ovan används virtualenv-pakethanteraren för att installera Python-paket. Alla Python-paket installeras i en enda miljö: /databricks/python3 .

I Databricks Runtime 8.4 ML nedan används Conda-pakethanteraren för att installera Python-paket. Alla Python-paket installeras i en enda miljö: i kluster med /databricks/python2 Python 2 och /databricks/python3 i kluster med Python 3. Det går inte att växla (eller aktivera) Conda-miljöer.

Information om hur du hanterar Python-bibliotek finns i Bibliotek.

Stöd för automatiserad maskininlärning

Databricks Runtime ML innehåller verktyg för att automatisera modellutvecklingen och hjälpa dig att effektivt hitta den modell som presterar bäst.

  • AutoML skapar, justerar och utvärderar automatiskt en uppsättning modeller och skapar en Python-notebook-fil med källkoden för varje körning så att du kan granska, återskapa och ändra koden.
  • Hanterad MLFlow hanterar hela modellens livscykel, inklusive spårning av experimentella körningar, distribution och delning av modeller samt underhåll av ett centraliserat modellregister.
  • Hyperopt, förstärkt med klassen , automatiserar och distribuerar ML modellparameterjustering.