Многомодельное машинное обучение (ML) в большом масштабе в Azure с использованием Spark

Фабрика данных Azure

Azure Data Lake

Azure Databricks

Машинное обучение Azure

Azure Synapse Analytics

В этой статье описана архитектура применения большого числа моделей, использующая Apache Spark в Azure Databricks или Azure Synapse Analytics. Spark — это мощное средство для преобразования больших объемов сложных данных, которое требуется для некоторых решений.

Примечание.

При применении большого числа моделей используйте Spark 3.0 и более поздних версий. В этих версиях возможности преобразования данных и поддержка Python и Pandas гораздо лучше, чем в предыдущих.

При работе со статьей, которая дополняет текущий документ (Многомодельное машинное обучение (ML) в большом масштабе с использованием Машинного обучения Azure), используется Машинное обучение и вычислительные кластеры.

Архитектура

Скачайте файл Visio для этой архитектуры.

Поток данных

Прием данных. Фабрика данных Azure извлекает данные из базы данных-источника и копирует их в Azure Data Lake Storage.
Конвейер обучения моделей:
1. Подготовка данных. Конвейер обучения извлекает данные из Data Lake Storage и группирует их в наборы данных для обучения моделей с помощью Spark.
2. Обучение моделей. Конвейер обучает модели для всех наборов данных, созданных во время подготовки. Он использует API функций Pandas для параллельного обучения нескольких моделей. После обучения модели конвейер регистрирует ее в Машинном обучении вместе с метриками тестирования.
Конвейер повышения уровня модели:
1. Оценка моделей. Перед перемещением в рабочую среду конвейер повышения уровня оценивает обученные модели. Конвейер DevOps с помощью бизнес-логики определяет, соответствует ли модель критериям развертывания. Например, конвейер может проверить, превышает ли точность данных тестирования 80 %.
2. Регистрация моделей. Этот конвейер регистрирует модели, которые соответствуют требованиям рабочей области рабочего Машинного обучения.
Конвейер пакетной оценки модели:
1. Подготовка данных. Конвейер пакетной оценки извлекает данные из Data Lake Storage и группирует их в наборы данных для оценки с помощью Spark.
2. Оценка моделей. Конвейер выполняет одновременную оценку нескольких наборов данных с помощью API функций Pandas. Конвейер находит соответствующую модель для каждого набора данных в Машинном обучении, выполняя поиск по тегам модели. Затем конвейер скачивает модель и использует ее для оценки набора данных. Для хранения результатов в конвейере используется соединитель Spark для Synapse SQL.
Оценка в реальном времени. Служба Azure Kubernetes (AKS) при необходимости может выполнять оценку в режиме реального времени. Учитывая наличие большого числа моделей, их нужно загружать по требованию, а не предварительно.
Результаты:
1. Прогнозы. Конвейер пакетной оценки сохраняет прогнозы в SQL.
2. Метрики. Power BI подключается к прогнозам модели для получения и агрегирования результатов, которые будут представлены.

Компоненты

Машинное обучение Azure — это служба ML корпоративного уровня для быстрого создания и развертывания моделей. Эта служба предоставляет пользователям со всеми уровнями навыков конструктор с небольшим объемом кода, автоматизированное ML (AutoML) и размещенную среду Jupyter Notebook, которая поддерживает различные среды IDE.
Azure Synapse Analytics — это служба аналитики, которая объединяет интеграцию данных, корпоративное хранилище данных и аналитику больших данных.
Synapse SQL — это система распределенных запросов для T-SQL, которая поддерживает сценарии хранения и виртуализации данных, а также расширяет возможности T-SQL для реализации сценариев потоковой передачи и ML. Система предлагает бессерверные модели и модели выделенных ресурсов.
Azure Data Lake Storage — это масштабируемая и безопасная служба хранения для высокопроизводительных аналитических рабочих нагрузок.
Служба Azure Kubernetes (AKS) — это полностью управляемая служба Kubernetes для развертывания и администрирования контейнерных приложений. AKS упрощает развертывание управляемого кластера AKS в Azure, перекладывая операционные издержки на Azure.
Azure DevOps — это набор служб для разработчиков, который обеспечивает комплексное управление жизненным циклом приложений и инфраструктуры. DevOps включает решения для отслеживания работы, управления исходным кодом, сборки, CI/CD, управления пакетами и тестирования.
Microsoft Power BI — это набор программных служб, приложений и соединителей, которые работают вместе, чтобы превратить несвязанные источники данных в согласованные, визуально привлекательные и интерактивные сведения.

Альтернативные варианты

Для обучения и оценки модели вы можете использовать Spark в Azure Synapse вместо Spark в Azure Databricks.
Исходные данные могут поступать из любой базы данных.
Вы можете использовать управляемую конечную точку в сети или AKS для развертывания вывода в режиме реального времени.

Подробности сценария

Для выполнения многих задач машинного обучения (ML) недостаточно одной модели ML. Может ли это прогнозировать продажи для каждого элемента каждого магазина или моделирования обслуживания для сотен нефтяных скважин, наличие модели для каждого экземпляра может улучшить результаты по многим проблемам машинного обучения. Этот шаблон использования большого числа моделей очень распространен в самых разных отраслях и применяется ко многим реальным вариантам использования. С использованием Машинного обучения Azure комплексный конвейер моделей может включать обучение моделей, развертывание пакетного вывода и развертывание в режиме реального времени.

Многомодельное решение требует наличия отдельного набора данных для каждой модели при обучении и оценке. Например, если стоит задача спрогнозировать продажи для каждой позиции в каждом магазине, каждый набор данных будет использоваться для уникальной комбинации позиции и магазина.

Потенциальные варианты использования

Розничная торговля. Для сети продуктовых магазинов нужно создать отдельную модель прогнозирования доходов для каждого магазина и каждой позиции. В общей сложности потребуется более 1000 моделей на магазин.
Цепочка поставок. Для каждой комбинации склада и продукта дистрибьюторская компания должна оптимизировать инвентаризацию.
Рестораны. Для сети с тысячами франшиз нужно прогнозировать спрос для каждой франшизы.

Соавторы

Эта статья поддерживается корпорацией Майкрософт. Первоначально он был написан следующими участник.

Автор субъекта:

Джеймс Нгуен | Главный архитектор облачных решений

Многомодельное машинное обучение (ML) в большом масштабе в Azure с использованием Spark

Архитектура

Поток данных

Компоненты

Альтернативные варианты

Подробности сценария

Потенциальные варианты использования

Рекомендации

Оптимизация затрат

Соавторы

Следующие шаги

Обратная связь

Обратная связь

Дополнительные ресурсы

Многомодельное машинное обучение (ML) в большом масштабе в Azure с использованием Spark

Архитектура

Поток данных

Компоненты

Альтернативные варианты

Подробности сценария

Потенциальные варианты использования

Рекомендации

Оптимизация затрат

Соавторы

Следующие шаги

Связанные ресурсы

Обратная связь

Обратная связь

Дополнительные ресурсы