Deep Learning (anteprima)

Articolo
05/07/2024

Apache Spark in Azure Synapse Analytics permette di usare l'apprendimento automatico con Big Data, per ottenere informazioni approfondite di grande utilità da ingenti quantità di dati strutturati, non strutturati e che cambiano rapidamente. Sono disponibili diverse opzioni per il training di modelli di Machine Learning con Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning e altre librerie open source.

Avviso

L'anteprima accelerata della GPU è limitata al runtime apache Spark 3.2 (fine del supporto annunciato). La fine del supporto annunciato per Il runtime di Azure Synapse per Apache Spark 3.2 è stata annunciata l'8 luglio 2023. La fine del supporto annuncia i runtime non includerà correzioni di bug e funzionalità. Le correzioni di sicurezza verranno backportate in base alla valutazione dei rischi. Questo runtime e l'anteprima accelerata della GPU corrispondente in Spark 3.2 verranno ritirati e disabilitati a partire dall'8 luglio 2024.
L'anteprima accelerata della GPU non è ora supportata nel runtime di Azure Synapse 3.1 (non supportato). Il runtime di Azure Synapse per Apache Spark 3.1 ha raggiunto la fine del supporto a partire dal 26 gennaio 2023, con il supporto ufficiale sospeso a partire dal 26 gennaio 2024 e non sono stati risolti ulteriormente i ticket di supporto, le correzioni di bug o gli aggiornamenti della sicurezza oltre questa data.

Pool di Apache Spark abilitati per GPU

Per semplificare il processo di creazione e gestione dei pool, Azure Synapse si occupa della preinstallazione di librerie di basso livello e della configurazione di tutti i requisiti di rete complessi tra i nodi di calcolo. Questa integrazione consente agli utenti di iniziare a usare pool con accelerazione GPU in pochi minuti.

Nota

I pool con accelerazione GPU possono essere creati nelle aree di lavoro situate negli Stati Uniti orientali, nell’Australia orientale e nell’Europa settentrionale.
I pool con accelerazione GPU sono disponibili solo con il runtime apache Spark 3.1 (non supportato) e 3.2.
Potrebbe essere necessario richiedere un aumento limite per creare cluster abilitati per GPU.

Ambiente ML GPU

Azure Synapse Analytics offre il supporto integrato per l'infrastruttura di Deep Learning. I runtime di Azure Synapse Analytics per Apache Spark 3 includono il supporto per le librerie di Deep Learning più comuni, ad esempio TensorFlow e PyTorch. Il runtime di Azure Synapse include anche librerie di supporto come Petastorm e Horovod comunemente usate per il training distribuito.

TensorFlow

TensorFlow è un framework open source di Machine Learning per tutti gli sviluppatori. Viene usato per l'implementazione di applicazioni di Machine Learning e Deep Learning.

Per altre informazioni su Tensorflow, è possibile visitare la documentazione dell'API Tensorflow.

PyTorch

PyTorch è una libreria tensor ottimizzata per il Deep Learning tramite GPU e CPU.

Per altre informazioni su PyTorch, è possibile visitare la documentazione di PyTorch.

Horovod

Horovod è un framework di training di Deep Learning distribuito per TensorFlow, Keras e PyTorch. Horovod è stato sviluppato per rendere il Deep Learning distribuito veloce e facile da usare. Con questo framework, è possibile aumentare le prestazioni di uno script di training esistente per l'esecuzione su centinaia di GPU in poche righe di codice. Horovod può anche essere eseguito su Apache Spark, rendendo possibile unificare l'elaborazione dei dati e il training del modello in una singola pipeline.

Per altre informazioni su come eseguire processi di training distribuiti in Azure Synapse Analytics, vedere le esercitazioni seguenti: - Esercitazione: Training distribuito con Horovod e PyTorch - Esercitazione: Training distribuito con Horovod e Tensorflow

Per altre informazioni su Horovod, è possibile visitare la documentazione di Horovod,

Petastorm

Petastorm è una libreria di accesso ai dati open source che consente il training a nodo singolo o distribuito di modelli di Deep Learning. Questa libreria consente il training direttamente dai set di dati in formato Apache Parquet e set di dati già caricati come DataFrame Apache Spark. Petastorm supporta framework di training più diffusi, ad esempio Tensorflow e PyTorch.

Per altre informazioni su Petastorm, è possibile visitare la pagina di GitHub Petastorm o la documentazione dell'API Petastorm.

Passaggi successivi

Questo articolo offre una panoramica delle varie opzioni per eseguire il training di modelli di Machine Learning nei pool di Apache Spark in Azure Synapse Analytics. Per altre informazioni sul training del modello, vedere l'esercitazione seguente:

Eseguire esperimenti SparkML: esercitazione su Apache SparkML
Accelerare i carichi di lavoro ETL con RAPIDS: Apache Spark Rapids

Share via