Inicio rápido Python

MLflow es una plataforma de código abierto para administrar el ciclo de vida completo del aprendizaje automático. MLflow proporciona API simples para el registro de métricas (por ejemplo, pérdida de modelos), parámetros (por ejemplo, velocidad de aprendizaje) y modelos ajustados, lo que facilita el análisis de los resultados de entrenamiento o la implementación de modelos más adelante.

En esta sección:

Instalación de MLflow

Si usa Databricks Runtime para machine learning, MLflow ya está instalado. De lo contrario, Instale el paquete MLflow desde PyPI.

Registrar automáticamente las ejecuciones de entrenamiento en MLflow

MLflow proporciona mlflow.<framework>.autolog() API para registrar automáticamente el código de entrenamiento escrito en muchas plataformas de aprendizaje automático. Puede llamar a esta API antes de ejecutar el código de entrenamiento para registrar las métricas específicas del modelo, los parámetros y los artefactos del modelo.

Tensorflow

# Also autoinstruments tf.keras
import mlflow.tensorflow
mlflow.tensorflow.autolog()

Keras

# Use import mlflow.tensorflow and mlflow.tensorflow.autolog() if using tf.keras
import mlflow.keras
mlflow.keras.autolog()

Xgboost

import mlflow.xgboost
mlflow.xgboost.autolog()

Lightgbm

import mlflow.lightgbm
mlflow.lightgbm.autolog()

Scikit-learn

import mlflow.sklearn
mlflow.sklearn.autolog()

Pyspark

Si realiza la optimización con pyspark.ml , las métricas y los modelos se registran automáticamente en MLflow. Consulte Apache Spark MLlib y el seguimiento de MLflow automatizado

Vista de resultados

Después de ejecutar el código de aprendizaje automático, puede ver los resultados mediante la barra lateral ejecuciones del experimento. Consulte ver el experimento de Notebook para obtener instrucciones sobre cómo ver el experimento, la ejecución y la revisión de Notebook usada en la guía de inicio rápido.

Seguimiento de métricas, parámetros y modelos adicionales

Puede registrar información adicional mediante la invocación directa de las API de registro de seguimiento de MLflow.

  • Métricas numéricas:

    import mlflow
    mlflow.log_metric("accuracy", 0.9)
    
  • Parámetros de entrenamiento:

    import mlflow
    mlflow.log_param("learning_rate", 0.001)
    
  • Modelos:

    Scikit-learn

    import mlflow.sklearn
    mlflow.sklearn.log_model(model, "myModel")
    

    Pyspark

    import mlflow.spark
    mlflow.spark.log_model(model, "myModel")
    

    Xgboost

    import mlflow.xgboost
    mlflow.xgboost.log_model(model, "myModel")
    

    Tensorflow

    import mlflow.tensorflow
    mlflow.tensorflow.log_model(model, "myModel")
    

    Keras

    import mlflow.keras
    mlflow.keras.log_model(model, "myModel")
    

    Pytorch

    import mlflow.pytorch
    mlflow.pytorch.log_model(model, "myModel")
    

    Espacio

    import mlflow.spacy
    mlflow.spacy.log_model(model, "myModel")
    
  • Otros artefactos (archivos):

    import mlflow
    mlflow.log_artifact("/tmp/my-file", "myArtifactPath")
    

Cuadernos de ejemplo

Requisitos

Databricks Runtime 6,4 o superior o Databricks Runtime 6,4 ML o superior.

Cuaderno

La manera recomendada de empezar a usar el seguimiento de MLflow con Python es usar la autolog() API de MLflow. Con las capacidades de registro automático de MLflow, una sola línea de código registra automáticamente el modelo resultante, los parámetros usados para crear el modelo y una puntuación del modelo. En el cuaderno siguiente se muestra cómo configurar una ejecución mediante el registro automáticamente.

Bloc de notas de Python de inicio rápido de registro MLflow

Obtener el cuaderno

Si necesita más control sobre las métricas registradas en cada ejecución de entrenamiento o desea registrar artefactos adicionales, como tablas o trazados, puede usar las funciones de la API de registro de MLflow que se muestran en el siguiente cuaderno.

Guía de inicio rápido de Python de la API de registro de MLflow

Obtener el cuaderno

Más información