Databricks runtime för Machine Learning

Databricks Runtime för Machine Learning (Databricks Runtime ML) automatiserar skapandet av ett kluster som är optimerat för maskin inlärning. Databricks Runtime ML-kluster omfattar de mest populära maskin inlärnings biblioteken, till exempel TensorFlow, PyTorch, keras och XGBoost, och innehåller även bibliotek som krävs för distribuerad utbildning som Horovod. Med Databricks Runtime ML kan du skapa kluster och se till att de installerade biblioteks versionerna är kompatibla.

Fullständig information om hur du använder Azure Databricks för maskin inlärning och djup inlärning finns i maskin inlärning och djup inlärnings guide.

Information om innehållet i varje Databricks Runtime ML-version finns i viktiginformation.

Databricks Runtime ML bygger på Databricks Runtime. Databricks Runtime 7,3 LTS för Machine Learning bygger till exempel på Databricks Runtime 7,3 LTS. De bibliotek som ingår i bas Databricks Runtime visas i Databricks Runtime viktig information.

Introduktion till Databricks runtime för Machine Learning

Den här självstudien är avsedd för nya användare av Databricks Runtime ML. Det tar cirka 10 minuter att arbeta med och visar ett komplett exempel från slut punkt till slut punkt för inläsning av tabell data, träna en modell, justering av distribuerad kors parameter och modellens härledning. Det illustrerar också hur du använder MLflow API och MLflow Model-registret.

Databricks självstudie – bärbar dator

Hämta notebook-fil

Bibliotek som ingår i Databricks runtime ml

Anteckning

Biblioteks verktyg är inte tillgängliga i Databricks runtime ml.

Databricks Runtime ML innehåller många populära ML-bibliotek. Biblioteken uppdateras med varje utgåva för att inkludera nya funktioner och korrigeringar.

Azure Databricks har angett en delmängd av de bibliotek som stöds som bibliotek på översta nivån. I de här biblioteken ger Azure Databricks en snabbare uppdatering takt och uppdaterar till de senaste paket versionerna med varje körnings utgåva (spärr konflikter). Azure Databricks innehåller även avancerad support, testning och inbäddade optimeringar för bibliotek på den översta nivån.

En fullständig lista över bibliotek på högsta nivån och andra tillhandahållna bibliotek finns i följande artiklar för varje tillgänglig körning:

Använda Databricks Runtime ML

Utöver de förinstallerade biblioteken skiljer sig Databricks Runtime ML från Databricks Runtime i kluster konfigurationen och i hur du hanterar python-paket.

Skapa ett kluster med Databricks Runtime ML

När du skapar ett klusterväljer du en Databricks runtime ml-version i list rutan Databricks runtime version. Både processor-och GPU-aktiverade ML-körningar är tillgängliga.

Välj Databricks Runtime ML

Om du väljer en GPU-aktiverad ML-körning uppmanas du att välja en kompatibel driv rutins typ och typ av arbetare. Inkompatibla instans typer är nedtonade i list rutorna. GPU-aktiverade instans typer visas under den GPU-accelererade etiketten.

Varning

Bibliotek i arbets ytan som installeras automatiskt i alla kluster kan stå i konflikt med de bibliotek som ingår i Databricks runtime ml. Innan du skapar ett kluster med Databricks Runtime ML avmarkerar du kryss rutan installera automatiskt på alla kluster för bibliotek som är i konflikt med varandra.

Hantera python-paket

I Databricks Runtime ML används Conda Package Manager för att installera python-paket. Alla python-paket installeras i en enda miljö: /databricks/python2 i kluster med python 2 och /databricks/python3 på kluster med python 3. Det finns inte stöd för att växla (eller aktivera) Conda-miljöer.

Information om hur du hanterar python-bibliotek finns i bibliotek.

AutoML-stöd

Databricks Runtime ML innehåller verktyg för att automatisera modell utvecklings processen och hjälper dig att effektivt hitta modellen för bästa prestanda.

  • Hanterade MLFlow hanterar livs cykeln för slut punkt till slut punkt, inklusive spårning av experiment körningar, distribution och delning av modeller och underhåll av ett centraliserat modell register.
  • Hyperopt, förstärkt med SparkTrials klassen, automatiserar och distribuerar ml modell parameter-justering.