Отслеживание экспериментов и моделей машинного обучения с помощью MLflow

Статья
02/15/2024

В этой статье вы узнаете, как использовать MLflow для отслеживания экспериментов и выполнения в Машинное обучение Azure рабочих областях.

Отслеживание — это процесс сохранения соответствующих сведений о выполняемых экспериментах. Сохраненные сведения (метаданные) зависят от проекта и могут включать:

Код
Сведения о среде (например, версия ОС, пакеты Python)
Входные данные
Конфигурации параметров
Модели
Метрики оценки
Визуализации оценки (например, матрицы путаницы, графики важности)
Результаты оценки (включая некоторые прогнозы оценки)

При работе с заданиями в Машинное обучение Azure Машинное обучение Azure автоматически отслеживает некоторые сведения о экспериментах, таких как код, среда и входные и выходные данные. Однако для других пользователей, таких как модели, параметры и метрики, построитель моделей должен настроить их отслеживание, так как они относятся к конкретному сценарию.

Примечание.

Если вы хотите отслеживать эксперименты, выполняемые в Azure Databricks, см. статью "Отслеживание экспериментов машинного обучения Azure Databricks" с помощью MLflow и Машинное обучение Azure. Дополнительные сведения об экспериментах отслеживания, выполняемых в Azure Synapse Analytics, см. в статье "Отслеживание экспериментов Машинного обучения Azure Synapse Analytics с помощью MLflow и Машинное обучение Azure".

Преимущества экспериментов отслеживания

Настоятельно рекомендуется, чтобы специалисты по машинному обучению отслеживали эксперименты, будь то обучение с заданиями в Машинное обучение Azure или интерактивном обучении в записных книжках. Отслеживание экспериментов позволяет:

Упорядочение всех экспериментов машинного обучения в одном месте. Затем можно выполнять поиск и фильтрацию экспериментов и детализацию, чтобы просмотреть сведения о экспериментах, которые вы выполнили раньше.
Сравните эксперименты, анализ результатов и обучение модели отладки с небольшим количеством дополнительных работ.
Воспроизведение или повторное выполнение экспериментов для проверки результатов.
Улучшение совместной работы, так как вы можете увидеть, что делают другие товарищи по команде, поделиться результатами эксперимента и получить доступ к данным эксперимента программным способом.

Зачем использовать MLflow для отслеживания экспериментов?

Машинное обучение Azure рабочие области совместимы с MLflow, что означает, что для отслеживания выполнения, метрик, параметров и артефактов в рабочих областях Машинное обучение Azure можно использовать MLflow. Основное преимущество использования MLflow для отслеживания заключается в том, что вам не нужно изменять учебные процедуры для работы с Машинное обучение Azure или внедрения любого синтаксиса, определенного в облаке.

Дополнительные сведения обо всех поддерживаемых функциях MLflow и Машинное обучение Azure см. в разделе MLflow и Машинное обучение Azure.

Ограничения

Некоторые методы, доступные в API MLflow, могут быть недоступны при подключении к Машинное обучение Azure. Дополнительные сведения о поддерживаемых и неподдерживаемых операциях см . в матрице поддержки для запросов к запускам и экспериментам.

Необходимые компоненты

Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу. Попробуйте бесплатную или платную версию Машинного обучения Azure.

Установите пакет mlflow SDK MLflow и подключаемый модуль Машинное обучение Azure для MLflowazureml-mlflow.
```
pip install mlflow azureml-mlflow
```
Совет

Вы можете использовать mlflow-skinny пакет, который является упрощенным пакетом MLflow без хранилища SQL, сервера, пользовательского интерфейса или зависимостей для обработки и анализа данных. mlflow-skinny рекомендуется для пользователей, которым в первую очередь нужны возможности отслеживания и ведения журнала MLflow, не импортируя полный набор функций, включая развертывания.
Рабочая область Машинного обучения Azure. Вы можете создать его, следуя руководству по созданию ресурсов машинного обучения.
- Сведения о разрешениях доступа, необходимых для выполнения операций MLflow в рабочей области.
Если вы выполняете удаленное отслеживание (то есть выполняется отслеживание экспериментов, выполняемых вне Машинное обучение Azure), настройте MLflow для указания URI отслеживания рабочей области Машинное обучение Azure. Дополнительные сведения о подключении MLflow к рабочей области см. в разделе "Настройка MLflow" для Машинное обучение Azure.

Настройка эксперимента

MLflow упорядочивает сведения в экспериментах и запусках (запуски называются заданиями в Машинное обучение Azure). По умолчанию запуски записываются в эксперимент с именем Default , который автоматически создается для вас. Вы можете настроить эксперимент, в котором происходит отслеживание.

Работа в интерактивном режиме
Работа с заданиями

Для интерактивного обучения, например в записной книжке Jupyter, используйте команду mlflow.set_experiment()MLflow. Например, следующий фрагмент кода настраивает эксперимент:

experiment_name = 'hello-world-example'
mlflow.set_experiment(experiment_name)

Чтобы отправить задания при использовании Машинное обучение Azure CLI или SDK, задайте имя эксперимента с помощью experiment_name свойства задания. Вам не нужно настраивать его в скрипте обучения.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

Настройка запуска

Машинное обучение Azure отслеживает любое задание обучения в том, что MLflow вызывает выполнение. Используйте запуски, чтобы записать всю обработку, выполняемую заданием.

Работа в интерактивном режиме
Работа с заданиями

Когда вы работаете в интерактивном режиме, MLflow начинает отслеживать подпрограмму обучения, как только вы попытаетесь записать сведения, требующие активного запуска. Например, отслеживание MLflow начинается при регистрации метрик, параметра или запуска цикла обучения, а функция автологирования Mlflow включена. Тем не менее, обычно полезно запустить запуск явным образом, особенно если вы хотите записать общее время для эксперимента в поле "Длительность ". Чтобы запустить запуск явным образом, используйте mlflow.start_run().

Независимо от того, запускаете ли вы выполнение вручную или нет, вам в конечном итоге необходимо остановить выполнение, чтобы MLflow знал, что выполнение эксперимента выполнено и может пометить состояние выполнения как завершено. Чтобы остановить выполнение, используйте mlflow.end_run().

Настоятельно рекомендуется запускать запуск вручную, чтобы не забудьте завершить их при работе с записными книжками.

Чтобы запустить запуск вручную и завершить его после завершения работы в записной книжке:
```
mlflow.start_run()

# Your code

mlflow.end_run()
```
Обычно полезно использовать парадигму диспетчера контекстов, чтобы помочь вам помнить о завершении выполнения:
```
with mlflow.start_run() as run:
    # Your code
```
При запуске нового запуска mlflow.start_run()можно указать run_name параметр, который позже преобразуется в имя запуска в пользовательском интерфейсе Машинное обучение Azure и поможет вам быстрее определить выполнение:
```
with mlflow.start_run(run_name="hello-world-example") as run:
    # Your code
```

Машинное обучение Azure задания позволяют отправлять длительные процедуры обучения или вывода как изолированные и воспроизводимые выполнения.

Создание подпрограммы обучения

При работе с заданиями обычно вы помещайте всю логику обучения в качестве файлов в папку, например src. Один из этих файлов — это файл Python с точкой входа в код обучения. В следующем примере показан hello_world.py пример:

# imports
import os
import mlflow

from random import random

# define functions
def main():
    mlflow.log_param("hello_param", "world")
    mlflow.log_metric("hello_metric", random())
    os.system(f"echo 'hello world' > helloworld.txt")
    mlflow.log_artifact("helloworld.txt")


# run functions
if __name__ == "__main__":
    # run main function
    main()

Предыдущий пример кода не используется mlflow.start_run() , но при использовании MLflow повторно использует текущий активный запуск. Поэтому не нужно удалять строку, которая используется mlflow.start_run() при переносе кода в Машинное обучение Azure.

Добавление отслеживания в подпрограмму

Используйте пакет SDK MLflow для отслеживания любых метрик, параметров, артефактов или моделей. Примеры того, как регистрировать эти данные, см. в разделе "Метрики журнала", параметры и файлы с помощью MLflow.

Убедитесь, что среда задания установлена MLflow

Все среды Машинное обучение Azure уже установлены MLflow, поэтому никаких действий не требуется, если вы используете курированную среду. Однако если вы хотите использовать настраиваемую среду, выполните следующие действия.

conda.yaml Создайте файл с нужными зависимостями:

channels:
- conda-forge
dependencies:
- python=3.8.5
- pip
- pip:
  - mlflow
  - azureml-mlflow
  - fastparquet
  - cloudpickle==1.6.0
  - colorama==0.4.4
  - dask==2023.2.0

Ссылка на среду в используемом задании.

Настройка имени задания

Используйте параметр display_name заданий Машинное обучение Azure для настройки имени запуска.

display_name Используйте свойство для настройки задания.

Azure CLI
Пакет SDK для Python

Чтобы отправить задание, создайте файл YAML с определением job.yml задания в файле. Этот файл должен быть создан за пределами каталога src.

$schema: https://azuremlschemas.azureedge.net/latest/commandJob.schema.json
command: echo "hello world"
environment:
  image: library/python:latest
tags:
  hello: world
display_name: hello-world-example
experiment_name: hello-world-example
description: |

from azure.ai.ml import command, Environment

command_job = command(
    code="src",
    command="echo "hello world",
    environment=Environment(image="library/python:latest"),
    compute="cpu-cluster",
    display_name="hello-world-example"
)

Убедитесь, что вы не используете mlflow.start_run(run_name="") в вашей процедуре обучения.

отправить задание.

Сначала подключитесь к рабочей области Машинное обучение Azure, в которой вы будете работать.
- Azure CLI
- Пакет SDK для Python
```
az account set --subscription <subscription>
az configure --defaults workspace=<workspace> group=<resource-group> location=<location>
```
Рабочая область — это ресурс верхнего уровня для Машинного обучения Azure, который обеспечивает централизованное расположение для работы со всеми артефактами, созданными в Машинном обучении Azure. В этом разделе описано, как подключиться к рабочей области, в которой будут выполняться задачи развертывания.
1. Импортируйте необходимые библиотеки:
```
from azure.ai.ml import MLClient
from azure.identity import DefaultAzureCredential
```
2. Настройте сведения о рабочей области и получите дескриптор для рабочей области:
```
subscription_id = "<subscription>"
resource_group = "<resource-group>"
workspace = "<workspace>"

ml_client = MLClient(DefaultAzureCredential(), subscription_id, resource_group, workspace)
```
отправить задание.
- Azure CLI
- Пакет SDK для Python
Используйте интерфейс командной строки Машинное обучение Azure для отправки задания. Задания, использующие MLflow и выполняющиеся на Машинное обучение Azure автоматически регистрируют все данные отслеживания в рабочей области. Откройте терминал и используйте следующий код для отправки задания.
```
az ml job create -f job.yml --web
```
Используйте пакет SDK для Python для отправки задания. Задания, использующие MLflow и выполняющиеся на Машинное обучение Azure автоматически регистрируют все данные отслеживания в рабочей области.
```
returned_job = ml_client.jobs.create_or_update(command_job)
returned_job.studio_url
```
Отслеживайте ход выполнения задания в Студия машинного обучения Azure.

Включение автолога MLflow

Метрики, параметры и файлы можно записывать вручную с помощью MLflow . Однако вы также можете использовать функцию автоматического ведения журнала MLflow. Каждая платформа машинного обучения, поддерживаемая MLflow, решает, что следует отслеживать автоматически.

Чтобы включить автоматическое ведение журнала, вставьте следующий код перед учебным кодом:

mlflow.autolog()

Просмотр метрик и артефактов в рабочей области

Метрики и артефакты из журнала MLflow отслеживаются в рабочей области. Вы можете просматривать и получать доступ к ним в студии в любое время или обращаться к ним программным образом с помощью пакета SDK MLflow.

Чтобы просмотреть метрики и артефакты в студии, выполните следующие действия.

Перейдите к Студия машинного обучения Azure.
Перейдите в рабочую область.
Найдите эксперимент по имени в рабочей области.
Выберите зарегистрированные метрики для отрисовки диаграмм справа. Вы можете настроить диаграммы, применяя сглаживание, изменение цвета или отображение нескольких метрик на одном графе. Вы также сможете изменять размер и расположение макета по своему усмотрению.
Создав нужное представление, сохраните его для дальнейшего использования и поделитесь им с коллегами, используя прямую ссылку.

Чтобы получить доступ к метрикам, параметрам и артефактам с помощью пакета SDK MLflow, используйте mlflow.get_run().

import mlflow

run = mlflow.get_run("<RUN_ID>")

metrics = run.data.metrics
params = run.data.params
tags = run.data.tags

print(metrics, params, tags)

Совет

Для метрик предыдущий пример кода возвращает только последнее значение заданной метрики. Если вы хотите получить все значения заданной метрики, используйте mlflow.get_metric_history этот метод. Дополнительные сведения о получении значений метрик см. в разделе "Получение парам и метрик" из запуска.

Чтобы скачать артефакты, которые вы зарегистрировали, например файлы и модели, используйте mlflow.artifacts.download_artifacts().

mlflow.artifacts.download_artifacts(run_id="<RUN_ID>", artifact_path="helloworld.txt")

Дополнительные сведения о том, как получить или сравнить информацию из экспериментов и запусков в Машинное обучение Azure с помощью MLflow, см. в статье "Запрос и сравнение экспериментов и запусков с помощью MLflow".