Конечные точки для вывода в рабочей среде

Статья
10/18/2023

ОБЛАСТЬ ПРИМЕНЕНИЯ:Расширение машинного обучения Azure CLI версии 2 (current)Python SDK azure-ai-ml версии 2 (current)

После обучения моделей машинного обучения или конвейеров необходимо развернуть их в рабочей среде, чтобы другие могли использовать их для вывода. Вывод — это процесс применения новых входных данных к модели машинного обучения или конвейеру для создания выходных данных. Хотя эти выходные данные обычно называются "прогнозами", вывод можно использовать для создания выходных данных для других задач машинного обучения, таких как классификация и кластеризация. В Машинное обучение Azure вы выполняете вывод с помощью конечных точек и развертываний. Конечные точки и развертывания позволяют отделить интерфейс рабочей нагрузки от реализации, которая служит ей.

Интуиции

Предположим, вы работаете над приложением, которое прогнозирует тип и цвет автомобиля, учитывая его фотографию. Для этого приложения пользователь с определенными учетными данными выполняет HTTP-запрос по URL-адресу и предоставляет фотографию автомобиля в рамках запроса. В обратном случае пользователь получает ответ, включающий тип и цвет автомобиля в виде строковых значений. В этом сценарии URL-адрес служит конечной точкой.

A diagram showing the concept of an endpoint.

Кроме того, говорят, что специалист по обработке и анализу данных Алиса работает над реализацией приложения. Алиса знает много о TensorFlow и решает реализовать модель с помощью последовательного классификатора Keras с архитектурой RestNet из Концентратора TensorFlow. После тестирования модели Алиса удовлетворена своими результатами и решает использовать модель для решения проблемы прогнозирования автомобиля. Для работы модели требуется 8 ГБ памяти с 4 ядрами. В этом сценарии модель Алисы и ресурсы, такие как код и вычислительные ресурсы, необходимые для запуска модели, составляют развертывание в конечной точке.

A diagram showing the concept of a deployment.

Наконец, предположим, что через пару месяцев организация обнаруживает, что приложение работает плохо на изображениях с менее чем идеальными условиями освещения. Боб, другой специалист по обработке и анализу данных, знает много о методах расширения данных, которые помогают модели построить надежность на этом факторе. Тем не менее, Боб чувствует себя более комфортно с помощью Факела для реализации модели и обучения новой модели с Факелом. Боб хочет попробовать эту модель в рабочей среде постепенно, пока организация не готова выйти из эксплуатации старой модели. Новая модель также обеспечивает более высокую производительность при развертывании на GPU, поэтому развертывание должно включать GPU. В этом сценарии модель Боба и ресурсы, такие как код и вычислительные ресурсы, необходимые для запуска модели, составляют другое развертывание в той же конечной точке.

A diagram showing the concept of an endpoint with multiple deployments.

Конечные точки и развертывания

Конечная точка — это стабильный и устойчивый URL-адрес, который можно использовать для запроса или вызова модели. Вы предоставляете необходимые входные данные конечной точке и возвращаете выходные данные. Конечная точка предоставляет:

стабильный и устойчивый URL-адрес (например , endpoint-name.region.inference.ml.azure.com),
механизм проверки подлинности и
механизм авторизации.

Развертывание — это набор ресурсов и вычислений, необходимых для размещения модели или компонента, выполняющего фактическое вывод. Одна конечная точка может содержать несколько развертываний. Эти развертывания могут размещать независимые ресурсы и использовать различные ресурсы в зависимости от потребностей ресурсов. Конечные точки имеют механизм маршрутизации, который может направлять запросы к определенным развертываниям в конечной точке.

Для правильной работы каждой конечной точки должно быть по крайней мере одно развертывание. Конечные точки и развертывания — это независимые ресурсы ARM, которые отображаются на портале Azure.

Сетевые и пакетные конечные точки

Машинное обучение Azure позволяет реализовать сетевые конечные точки и пакетные конечные точки. Сетевые конечные точки предназначены для вывода в режиме реального времени— при вызове конечной точки результаты возвращаются в ответе конечной точки. С другой стороны, конечные точки пакетной службы предназначены для длительного вывода пакетной службы. Каждый раз при вызове конечной точки пакетной службы создается пакетное задание, выполняющее фактическую работу.

Когда следует использовать конечную точку в сети и пакетную конечную точку для вашего варианта использования

Используйте сетевые конечные точки для операционализации моделей для вывода в режиме реального времени синхронных запросов с низкой задержкой. Мы рекомендуем использовать их при:

У вас есть требования к низкой задержке.
Модель может ответить на запрос относительно коротким временем.
Входные данные модели соответствуют полезным данным HTTP запроса.
Необходимо увеличить масштаб с точки зрения количества запросов.

Используйте пакетные конечные точки для операционализации моделей или конвейеров для длительного асинхронного вывода. Мы рекомендуем использовать их при:

У вас есть дорогие модели или конвейеры, требующие длительного времени выполнения.
Вы хотите использовать конвейеры машинного обучения и повторно использовать компоненты.
Необходимо выполнить вывод больших объемов данных, распределенных в нескольких файлах.
У вас нет требований к низкой задержке.
Входные данные модели хранятся в учетной записи хранения или в Машинное обучение Azure ресурсе данных.
Вы можете воспользоваться преимуществами параллелизации.

Сравнение сетевых и пакетных конечных точек

Как сетевые, так и пакетные конечные точки основаны на идее конечных точек и развертываний, которые помогают легко переходить с одной на другую. Однако при переходе от одного к другому существуют некоторые различия, которые важно учитывать. Некоторые из этих различий обусловлены характером работы:

Конечные точки

В следующей таблице показана сводка по различным функциям, доступным для сетевых и пакетных конечных точек.

Компонент	Сетевые конечные точки	Конечные точки пакетной службы
URL-адрес стабильного вызова	Да	Да
Поддержка нескольких развертываний	Да	Да
Маршрутизация развертывания	Разделение трафика	Переключение на значение по умолчанию
Зеркальный трафик для безопасного развертывания	Да	Нет
Поддержка Swagger	Да	Нет
Проверка подлинности	Ключ и маркер	Microsoft Entra ID
Поддержка частной сети	Да	Да
Управляемая сетевая изоляция	Да	Да (см. требуемую дополнительную конфигурацию)
Ключи, управляемые клиентом	Да	Да
База затрат	нет	нет

Развертывания

В следующей таблице показана сводка различных функций, доступных для сетевых и пакетных конечных точек на уровне развертывания. Эти понятия применяются к каждому развертыванию в конечной точке.

Компонент	Сетевые конечные точки	Конечные точки пакетной службы
Типы развертывания	Модели	Модели и компоненты конвейера
Развертывание модели MLflow	Да	Да
Развертывание пользовательской модели	Да, с скриптом оценки	Да, с скриптом оценки
Развертывание ^{пакета модели 1}	Да (предварительная версия)	No
Сервер ^{вывода 2}	— сервер вывода Машинное обучение Azure -Тритон — Custom (using BYOC)	Вывод пакетной службы
Потребляемый вычислительный ресурс	Экземпляры или детализированные ресурсы	Экземпляры кластера
Тип вычисления	Управляемые вычислительные ресурсы и Kubernetes	Управляемые вычислительные ресурсы и Kubernetes
Низкоприоритетные вычисления	No	Да
Масштабирование вычислений до нуля	No	Да
Автомасштабирование вычислений³	Да, на основе загрузки ресурсов	Да, на основе количества заданий
Управление избыточностью	Регулирование	Очереди
Стоимость⁴	На развертывание: вычислительные экземпляры, работающие	Для каждого задания: вычислительные экземпляры, используемые в задании (ограничено максимальным числом экземпляров кластера).
Локальное тестирование развертываний	Да	Нет

¹ Развертывание моделей MLflow в конечных точках без исходящего подключения к Интернету или частных сетей требует упаковки модели .

²Сервер вывода относится к технологии обслуживания, которая принимает запросы, обрабатывает их и создает ответы. Сервер вывода также определяет формат входных данных и ожидаемых выходных данных.

³Автомасштабирование — это возможность динамически увеличивать или уменьшать масштаб выделенных ресурсов развертывания на основе его нагрузки. В сети и пакетных развертываниях используются различные стратегии автомасштабирования. В то время как сетевые развертывания масштабируются вверх и вниз на основе использования ресурсов (например, ЦП, памяти, запросов и т. д.), конечные точки пакетной службы масштабируются вверх или вниз на основе числа созданных заданий.

⁴ Как в сети, так и в пакетном развертывании взимается плата за ресурсы, используемые. В сетевых развертываниях ресурсы подготавливаются во время развертывания. Однако в пакетном развертывании ресурсы не используются во время развертывания, но при выполнении задания. Таким образом, с самим развертыванием нет затрат. Обратите внимание, что в очередях задания не используются ресурсы.

Интерфейсы для разработчиков

Конечные точки предназначены для работы рабочих нагрузок на уровне рабочей среды в Машинное обучение Azure. Конечные точки являются надежными и масштабируемыми ресурсами, и они обеспечивают лучшие возможности для реализации рабочих процессов MLOps.

Вы можете создавать пакетные и сетевые конечные точки и управлять ими с помощью нескольких средств разработчика:

Azure CLI и пакет SDK для Python
Azure Resource Manager/REST API
Веб-портал Студии машинного обучения Azure
Портал Azure (ИТ-администратор)
Поддержка конвейеров CI/CD MLOps с использованием интерфейса Azure CLI и интерфейсов REST/ARM