Глубокое обучение (предварительная версия)

Статья
05/02/2024

Apache Spark в Azure Synapse Analytics позволяет выполнять машинное обучение с помощью больших данных, предоставляя возможность получить ценные сведения из больших объемов структурированных, неструктурированных и быстро меняющихся данных. Существует несколько вариантов, которые можно использовать для обучения моделей машинного обучения с помощью Azure Spark в Azure Synapse Analytics: Apache Spark MLlib, Машинное обучение Azure и большое количество других библиотек с исходным кодом.

Предупреждение

Предварительная версия gpu ограничена средой выполнения Apache Spark 3.2 (объявленная поддержка). Дата окончания поддержки, объявленная для среды выполнения Azure Synapse для Apache Spark 3.2, была объявлена 8 июля 2023 г. После завершения поддержки объявленные среды выполнения не будут иметь исправлений ошибок и компонентов. Исправления безопасности будут выборочно портироваться на устаревшие версии с учетом оценки рисков. Эта среда выполнения и соответствующая предварительная версия gpu с ускорением GPU в Spark 3.2 будут прекращены и отключены с 8 июля 2024 г.
Предварительная версия ускорения GPU теперь не поддерживается в среде выполнения Azure Synapse 3.1 (неподдерживаемая версия). Среда выполнения Azure Synapse для Apache Spark 3.1 достигла срока поддержки с 26 января 2023 г. с официальной поддержкой, прекращенной с 26 января 2024 г., и никаких дальнейших обращений к запросам в службу поддержки, исправлений ошибок или обновлений системы безопасности после этой даты.

Пулы Apache Spark с поддержкой GPU

Чтобы упростить создание пулов и управление ими, Azure Synapse предварительно устанавливает низкоуровневые библиотеки и настраивает все сложные сетевые требования между разными вычислительными узлами. Эта интеграция позволяет пользователям начать работу с пулами с ускорением GPU всего за несколько минут.

Примечание.

Пулы с ускорением GPU можно создавать в рабочих областях, расположенных в регионах "Восточная часть США", "Восточная Австралия" и "Северная Европа".
Пулы с ускорением GPU доступны только в среде выполнения Apache Spark 3.1 (неподдерживаемой) и 3.2.
Чтобы создать кластеры с поддержкой GPU, возможно, потребуется запросить увеличение предельного значения.

Среда ML GPU

Azure Synapse Analytics предоставляет встроенную поддержку инфраструктуры глубокого обучения. Среды выполнения Azure Synapse Analytics для Apache Spark 3 включают поддержку самых распространенных библиотек глубокого обучения, таких как TensorFlow и PyTorch. Среда выполнения Azure Synapse также включает вспомогательные библиотеки, такие как Petastorm и Horovod, которые обычно используются для распределенного обучения.

Tensorflow

TensorFlow — это платформа машинного обучения с открытым кодом для всех разработчиков. Она используется для реализации приложений машинного обучения и глубокого обучения.

Дополнительные сведения о Tensorflow приведены в документации по API Tensorflow.

PyTorch

PyTorch — это оптимизированная библиотека тензоров для глубокого обучения с помощью GPU и ЦП.

Дополнительные сведения о PyTorch приведены в документации по PyTorch.

Horovod

Horovod — это платформа распределенного глубокого обучения, которая предназначена для работы с TensorFlow, Keras и PyTorch. Платформа Horovod была разработана для обеспечения быстроты, простоты и удобства глубокого обучения. С ее помощью существующий скрипт обучения можно масштабировать для запуска на сотнях GPU всего в нескольких строках кода. Кроме того, Horovod может работать поверх Apache Spark, что позволяет унифицировать обработку данных и обучение модели в едином конвейере.

Дополнительные сведения о выполнении заданий распределенного обучения в Azure Synapse Analytics приведены в следующих руководствах: Руководство по распределенному обучению с помощью Horovod и PyTorch - Руководство по распределенному обучению с помощью Horovod и Tensorflow

Дополнительные сведения о платформе Horovod приведены в документации по Horovod.

Petastorm

Petastorm — это библиотека доступа к данным с открытым кодом, которая обеспечивает одноузловое или распределенное обучение моделей глубокого обучения. Эта библиотека позволяет проводить обучение непосредственно на наборах данных в формате Apache Parquet и на наборах данных, которые уже были загружены в качестве кадра данных (DataFrame) Apache Spark. Petastorm поддерживает популярные платформы обучения, такие как Tensorflow и PyTorch.

Дополнительные сведения о Petastorm см. на странице GitHub Petastorm и в документации по API Petastorm.

Следующие шаги

В этой статье представлен обзор различных вариантов обучения моделей машинного обучения в пулах Apache Spark в Azure Synapse Analytics. Дополнительные сведения об обучении модели см. в следующих учебниках:

Выполнение экспериментов SparkML: Учебник по Apache SparkML
Ускорение рабочих нагрузок ETL с помощью RAPIDS: Apache Spark Rapids

Share via