Guia de início rápido Python

O MLflow é uma plataforma open source para gerir o ciclo de vida completo de machine learning. O MLflow fornece APIs simples para registrar métricas (por exemplo, perda de modelo), parâmetros (por exemplo, taxa de aprendizagem) e modelos ajustados, facilitando a análise de resultados de treinamento ou a implantação de modelos posteriormente.

Nesta secção:

Instalar o MLflow

Se você estiver usando o Databricks Runtime for Machine Learning, o MLflow já está instalado. Caso contrário, instale o pacote MLflow do PyPI.

Registre automaticamente as execuções de treinamento no MLflow

Com o Databricks Runtime 10.4 LTS ML e superior, o Databricks Autologging é ativado por padrão e captura automaticamente parâmetros de modelo, métricas, arquivos e informações de linhagem quando você treina modelos de uma variedade de bibliotecas populares de aprendizado de máquina.

Com o Databricks Runtime 9.1 LTS ML, o MLflow fornece mlflow.<framework>.autolog() APIs para registrar automaticamente o código de treinamento escrito em muitas estruturas de ML. Você pode chamar essa API antes de executar o código de treinamento para registrar métricas, parâmetros e artefatos de modelo específicos do modelo.

TensorFlow

Nota

Os modelos Keras também são suportados no mlflow.tensorflow.autolog().

# Also autoinstruments tf.keras
import mlflow.tensorflow
mlflow.tensorflow.autolog()

XGBoost

import mlflow.xgboost
mlflow.xgboost.autolog()

LightGBM

import mlflow.lightgbm
mlflow.lightgbm.autolog()

scikit-learn

import mlflow.sklearn
mlflow.sklearn.autolog()

PySpark

Se estiver executando o ajuste com pyspark.ml, as métricas e os modelos serão automaticamente registrados no MLflow. Consulte Apache Spark MLlib e rastreamento automatizado de MLflow.

Ver resultados

Depois de executar seu código de aprendizado de máquina, você pode visualizar os resultados usando a barra lateral Experiment Runs. Consulte Exibir experiência de bloco de anotações para obter instruções sobre como exibir o experimento, a execução e a revisão do bloco de anotações usados no início rápido.

Acompanhe métricas, parâmetros e modelos adicionais

Você pode registrar informações adicionais invocando diretamente as APIs de log do MLflow Tracking.

Métricas numéricas

  import mlflow
  mlflow.log_metric("accuracy", 0.9)

Parâmetros de formação

  import mlflow
  mlflow.log_param("learning_rate", 0.001)

Modelos

scikit-learn

 import mlflow.sklearn
 mlflow.sklearn.log_model(model, "myModel")

PySpark

 import mlflow.spark
 mlflow.spark.log_model(model, "myModel")

XGBoost

 import mlflow.xgboost
 mlflow.xgboost.log_model(model, "myModel")

TensorFlow

 import mlflow.tensorflow
 mlflow.tensorflow.log_model(model, "myModel")

Keras

 import mlflow.keras
 mlflow.keras.log_model(model, "myModel")

PyTorch

 import mlflow.pytorch
 mlflow.pytorch.log_model(model, "myModel")

SpaCy

 import mlflow.spacy
 mlflow.spacy.log_model(model, "myModel")

Outros artefactos (ficheiros)

   import mlflow
   mlflow.log_artifact("/tmp/my-file", "myArtifactPath")

Blocos de notas de exemplo

Nota

Com o Databricks Runtime 10.4 LTS ML e superior, o Databricks Autologging é habilitado por padrão, e o código nesses blocos de anotações de exemplo não é necessário. Os blocos de anotações de exemplo nesta seção foram projetados para uso com o Databricks Runtime 9.1 LTS ML.

A maneira recomendada de começar a usar o rastreamento MLflow com Python é usar a API MLflow autolog() . Com os recursos de registro automático do MLflow, uma única linha de código registra automaticamente o modelo resultante, os parâmetros usados para criar o modelo e uma pontuação do modelo. O bloco de anotações a seguir mostra como configurar uma execução usando o registro automático.

Bloco de anotações Python de início automático MLflow

Obter o bloco de notas

Se você precisar de mais controle sobre as métricas registradas para cada execução de treinamento ou quiser registrar artefatos adicionais, como tabelas ou gráficos, poderá usar as funções da API de log MLflow demonstradas no bloco de anotações a seguir.

Notebook Python de início rápido da API de log MLflow

Obter o bloco de notas

Mais informações