Spåra modellutveckling med MLflow

Den här artikeln innehåller exempel på utveckling av spårningsmodeller i Azure Databricks. Logga och spåra ML- och djupinlärningsmodeller automatiskt med MLflow eller manuellt med MLflow-API:et.

Modellspårning och MLflow

Processen för modellutveckling är iterativ och det kan vara svårt att få en bra översikt över ditt arbete när du utvecklar och optimerar en modell. I Azure Databricks kan du använda MLflow-spårning för att spåra processen för modellutveckling, inklusive parameterinställningar eller kombinationer som du har provat och hur de påverkar modellens prestanda.

MLflow-spårning använder experiment och körningar för att logga och spåra ml- och djupinlärningsmodellens utveckling. En körning är en enskild körning av modellens kod. Under en MLflow-körning kan du logga modellens parametrar och resultat. Ett experiment är en samling relaterade körningar. I ett experiment kan du jämföra och filtrera körningar för att förstå hur din modell presterar och hur dess prestanda beror på parameterinställningarna, indata och så vidare.

Notebook-filerna i den här artikeln innehåller enkla exempel som kan hjälpa dig att snabbt komma igång med att använda MLflow för att spåra din modellutveckling. Mer information om hur du använder MLflow-spårning i Azure Databricks finns i Spåra ML- och djupinlärningsträningskörningar.

Kommentar

MLflow-spårning stöder inte jobb som skickas med spark_submit_task i jobb-API:et. I stället kan du använda MLflow Projects för att köra Spark-kod.

Använda automatisk loggning för att spåra modellutveckling

MLflow kan automatiskt logga träningskod som skrivits i många ML- och djupinlärningsramverk. Det här är det enklaste sättet att komma igång med att använda MLflow-spårning.

Den här exempelnotebook-filen visar hur du använder automatisk loggning med scikit-learn. Mer information om automatisk loggning med andra Python-bibliotek finns i Logga träningskörningar till MLflow automatiskt.

Python-notebook-fil för automatisk loggning av MLflow

Hämta notebook-fil

Använda API:et för loggning för att spåra modellutveckling

Den här notebook-filen visar hur du använder API:et för MLflow-loggning. Med API:et för loggning får du mer kontroll över de mått som loggas och du kan logga ytterligare artefakter som t.ex. tabeller eller ritytor.

Den här exempelnotebook-filen visar hur du använder API:et för Python-loggning. MLflow har också API:er för REST, R och Java.

MLflow-loggnings-API:et Python Notebook

Hämta notebook-fil

Exempel från slutpunkt till slutpunkt

Den här notebook-självstudien ger dig ett omfattande exempel på hur du tränar en modell i Azure Databricks. T.ex. hur du läser in data, visualiserar data, konfigurerar optimering av parallella hyperparametrar och hur du använder MLflow för att granska resultaten, registrera modellen och dra slutsatser med hjälp av nya data med den registrerade modellen i en Spark-UDF.

Krav

Databricks Runtime ML

Exempelnotebook-fil

Om din arbetsyta är aktiverad för Unity Catalog använder du den här versionen av notebook-filen:

Använda scikit-learn med MLflow-integrering på Databricks (Unity Catalog)

Hämta notebook-fil

Om arbetsytan inte är aktiverad för Unity Catalog använder du den här versionen av notebook-filen:

Använda scikit-learn med MLflow-integrering på Databricks

Hämta notebook-fil