Deep Learning

Questo articolo offre una breve introduzione all'uso di PyTorch, Tensorflow e training distribuito per lo sviluppo e l'ottimizzazione di modelli di Deep Learning in Azure Databricks. Include anche collegamenti a pagine con notebook di esempio che illustrano come usare tali strumenti.

PyTorch

PyTorch è incluso in Databricks Runtime ML e fornisce il calcolo accelerato della GPU e le funzionalità di alto livello per la creazione di reti di Deep Learning. È possibile eseguire il training a nodo singolo o il training distribuito con PyTorch in Databricks. Vedere PyTorch.

TensorFlow

Databricks Runtime ML include TensorFlow e TensorBoard, quindi è possibile usare queste librerie senza installare pacchetti. TensorFlow supporta l'apprendimento avanzato e i calcoli numerici generali su CPU, GPU e cluster di GPU. TensorBoard offre strumenti di visualizzazione che consentono di eseguire il debug e ottimizzare i flussi di lavoro di Machine Learning e Deep Learning. Vedere TensorFlow per esempi di training a nodo singolo e distribuito.

Training distribuito

Poiché i modelli di Deep Learning sono dati e calcoli a elevato utilizzo di calcolo, il training distribuito può essere importante. Per esempi di deep learning distribuito con le integrazioni con Horovod, spark-tensorflow-distributor, TorchDistributor e DeepSpeed, vedere Training distribuito.

Tenere traccia dello sviluppo di modelli di Deep Learning

Il rilevamento rimane una pietra angolare dell'ecosistema MLflow ed è particolarmente essenziale per la natura iterativa dell'apprendimento avanzato. Databricks usa MLflow per tenere traccia delle esecuzioni di training e dello sviluppo di modelli di Deep Learning. Vedere Tenere traccia dello sviluppo di modelli con MLflow.