Deep Learning (preview)

Artikel
03/09/2024

Apache Spark in Azure Synapse Analytics maakt machine learning mogelijk met big data, waardoor u waardevolle inzichten kunt verkrijgen uit grote hoeveelheden gestructureerde, ongestructureerde en snel veranderende gegevens. Er zijn verschillende opties voor het trainen van machine learning-modellen met behulp van Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning en verschillende andere opensource-bibliotheken.

Waarschuwing

De versnelde preview van de GPU is beperkt tot de runtimes van Azure Synapse 3.1 (niet ondersteund) en Apache Spark 3.2 (einde van ondersteuning aangekondigd ).
Azure Synapse Runtime voor Apache Spark 3.1 heeft het einde van de ondersteuning bereikt vanaf 26 januari 2023, waarbij officiële ondersteuning vanaf 26 januari 2024 is stopgezet en geen verdere adressering van ondersteuningstickets, bugfixes of beveiligingsupdates meer dan deze datum.
Azure Synapse Runtime voor Apache Spark 3.2 heeft het einde van de ondersteuning bereikt vanaf 8 juli 2023, zonder verdere bug- of functiecorrecties, maar beveiligingsoplossingen kunnen worden teruggezet op basis van risicoanalyse en worden vanaf 8 juli 2024 buiten gebruik gesteld en uitgeschakeld.

Apache Spark-pools met GPU

Om het proces voor het maken en beheren van pools te vereenvoudigen, zorgt Azure Synapse voor het vooraf installeren van bibliotheken op laag niveau en het instellen van alle complexe netwerkvereisten tussen rekenknooppunten. Met deze integratie kunnen gebruikers binnen een paar minuten aan de slag met GPU-versnelde pools. Voor meer informatie over het maken van een gpu-versnelde pool, kunt u de quickstart bekijken over het maken van een gpu-versnelde pool.

Notitie

Gpu-versnelde pools kunnen worden gemaakt in werkruimten in VS - oost, Australië - oost en Europa - noord.
Gpu-versnelde pools zijn alleen beschikbaar met de Apache Spark 3.1 (niet-ondersteunde) en 3.2-runtime.
Mogelijk moet u een limietverhoging aanvragen om clusters met GPU te kunnen maken.

GPU ML-omgeving

Azure Synapse Analytics biedt ingebouwde ondersteuning voor deep learning-infrastructuur. De Azure Synapse Analytics-runtimes voor Apache Spark 3 bevatten ondersteuning voor de meest voorkomende Deep Learning-bibliotheken, zoals TensorFlow en PyTorch. De Azure Synapse-runtime bevat ook ondersteunende bibliotheken zoals Petastorm en Horovod die vaak worden gebruikt voor gedistribueerde training.

Tensorflow

TensorFlow is een opensource-framework voor machine learning voor alle ontwikkelaars. Het wordt gebruikt voor het implementeren van machine learning- en Deep Learning-toepassingen.

Voor meer informatie over Tensorflow kunt u de Documentatie van de Tensorflow-API raadplegen.

PyTorch

PyTorch is een geoptimaliseerde tensor-bibliotheek voor deep learning met behulp van GPU's en CPU's.

Raadpleeg de PyTorch-documentatie voor meer informatie over PyTorch.

Horovod

Horovod is een gedistribueerd deep learning-trainingsframework voor TensorFlow, Keras en PyTorch. Horovod is ontwikkeld om gedistribueerde deep learning snel en gebruiksvriendelijk te maken. Met dit framework kan een bestaand trainingsscript worden opgeschaald om te worden uitgevoerd op honderden GPU's in slechts een paar regels code. Daarnaast kan Horovod worden uitgevoerd op Apache Spark, waardoor het mogelijk is om gegevensverwerking en modeltraining te combineren in één pijplijn.

Voor meer informatie over het uitvoeren van gedistribueerde trainingstaken in Azure Synapse Analytics, kunt u de volgende zelfstudies bezoeken: - Zelfstudie: Gedistribueerde training met Horovod en PyTorch - Tutorial: Gedistribueerde training met Horovod en Tensorflow

Voor meer informatie over Horovod, kunt u de Horovod documentatie bezoeken,

Petastorm

Petastorm is een opensource-bibliotheek voor gegevenstoegang waarmee u met één knooppunt of gedistribueerde training van Deep Learning-modellen kunt trainen. Met deze bibliotheek kunt u rechtstreeks vanuit gegevenssets in Apache Parquet-indeling en gegevenssets trainen die al zijn geladen als een Apache Spark DataFrame. Petastorm ondersteunt populaire trainingsframeworks zoals Tensorflow en PyTorch.

Voor meer informatie over Petastorm kunt u de Petastorm GitHub-pagina of de Petastorm API-documentatie bezoeken.

Volgende stappen

Dit artikel bevat een overzicht van de verschillende opties voor het trainen van machine learning-modellen in Apache Spark-pools in Azure Synapse Analytics. U vindt meer informatie over modeltraining door de onderstaande zelfstudie te volgen:

SparkML-experimenten uitvoeren: Apache SparkML-zelfstudie
Bibliotheken weergeven in de Apache Spark 3-runtime: Apache Spark 3 Runtime
ETL-workloads versnellen met RAPIDS: Apache Spark Rapids