Rychlý start v Pythonu

MLflow je open source platforma pro správu kompletního životního cyklu strojového učení. MLflow poskytuje jednoduchá rozhraní API pro metriky protokolování (například ztrátu modelu), parametry (například rychlost učení) a fitované modely, což usnadňuje analýzu výsledků trénování nebo nasazení modelů později.

V této části:

Instalace MLflow

Pokud používáte Databricks Runtime pro machine Učení, MLflow je už nainstalovaný. Jinak nainstalujte balíček MLflow z PyPI.

Automatické protokolování trénovacích běhů do MLflow

S modulem Databricks Runtime 10.4 LTS ML a novějším je automatické protokolování Databricks ve výchozím nastavení povolené a automaticky zaznamenává parametry modelu, metriky, soubory a informace rodokmenu při trénování modelů z různých oblíbených knihoven strojového učení.

S modulem Databricks Runtime 9.1 LTS ML poskytuje mlflow.<framework>.autolog() MLflow rozhraní API pro automatické protokolování trénovacího kódu napsaného v mnoha architekturách ML. Toto rozhraní API můžete volat před spuštěním trénovacího kódu, abyste mohli protokolovat metriky, parametry a artefakty modelu.

TensorFlow

Poznámka:

Modely Keras jsou podporovány také v mlflow.tensorflow.autolog().

# Also autoinstruments tf.keras
import mlflow.tensorflow
mlflow.tensorflow.autolog()

XGBoost

import mlflow.xgboost
mlflow.xgboost.autolog()

LightGBM

import mlflow.lightgbm
mlflow.lightgbm.autolog()

scikit-learn

import mlflow.sklearn
mlflow.sklearn.autolog()

PySpark

Pokud provádíte ladění pomocí pyspark.ml, metriky a modely se automaticky protokolují do MLflow. Viz Apache Spark MLlib a automatizované sledování MLflow.

Zobrazit výsledky

Po spuštění kódu strojového učení můžete zobrazit výsledky pomocí bočního panelu Spuštění experimentu. Pokyny k zobrazení experimentu, spuštění a revize poznámkového bloku použitého v rychlém startu najdete v tématu Zobrazení experimentu poznámkového bloku.

Sledování dalších metrik, parametrů a modelů

Další informace můžete protokolovat tak, že přímo vyvoláte rozhraní API protokolování sledování MLflow.

Číselné metriky

  import mlflow
  mlflow.log_metric("accuracy", 0.9)

Trénovací parametry

  import mlflow
  mlflow.log_param("learning_rate", 0.001)

Modely

scikit-learn

 import mlflow.sklearn
 mlflow.sklearn.log_model(model, "myModel")

PySpark

 import mlflow.spark
 mlflow.spark.log_model(model, "myModel")

XGBoost

 import mlflow.xgboost
 mlflow.xgboost.log_model(model, "myModel")

TensorFlow

 import mlflow.tensorflow
 mlflow.tensorflow.log_model(model, "myModel")

Keras

 import mlflow.keras
 mlflow.keras.log_model(model, "myModel")

PyTorch

 import mlflow.pytorch
 mlflow.pytorch.log_model(model, "myModel")

SpaCy

 import mlflow.spacy
 mlflow.spacy.log_model(model, "myModel")

Další artefakty (soubory)

   import mlflow
   mlflow.log_artifact("/tmp/my-file", "myArtifactPath")

Příklady poznámkových bloků

Poznámka:

S modulem Databricks Runtime 10.4 LTS ML a novějším je automatickélogování Databricks ve výchozím nastavení povolené a kód v těchto ukázkových poznámkových blocích se nevyžaduje. Ukázkové poznámkové bloky v této části jsou navržené pro použití s Databricks Runtime 9.1 LTS ML.

Doporučeným způsobem, jak začít používat sledování MLflow s Pythonem, je použít rozhraní API MLflow autolog() . S funkcemi automatického protokolování MLflow automaticky zaznamená jeden řádek kódu výsledný model, parametry použité k vytvoření modelu a skóre modelu. Následující poznámkový blok ukazuje, jak nastavit spuštění pomocí automatickéhologování.

Rychlé zprovoznění poznámkového bloku Pythonu s automatickým protokolem MLflow

Získat poznámkový blok

Pokud potřebujete větší kontrolu nad metrikami zaprotokolovanými pro každé trénovací spuštění nebo chcete protokolovat další artefakty, jako jsou tabulky nebo grafy, můžete použít funkce rozhraní API protokolování MLflow demonstrované v následujícím poznámkovém bloku.

Rychlé zprovoznění poznámkového bloku Pythonu pro rozhraní API pro protokolování MLflow

Získat poznámkový blok

Další informace