Gestire la configurazione delle pipeline di tabelle live Delta

Articolo
04/19/2024

Poiché le tabelle live Delta automatizzano le complessità operative, ad esempio la gestione dell'infrastruttura, l'orchestrazione delle attività, il ripristino degli errori e l'ottimizzazione delle prestazioni, molte pipeline possono essere eseguite con una configurazione manuale minima. Tuttavia, le tabelle Live Delta consentono anche di gestire la configurazione per le pipeline che richiedono configurazioni non predefinite o per ottimizzare le prestazioni e l'utilizzo delle risorse. Questi articoli forniscono informazioni dettagliate sulla gestione delle configurazioni per le pipeline di tabelle live Delta, incluse le impostazioni che determinano la modalità di esecuzione delle pipeline, le opzioni per il calcolo che esegue una pipeline e la gestione di dipendenze esterne, ad esempio le librerie Python.

Gestire le impostazioni della pipeline

La configurazione per una pipeline di tabelle live Delta include impostazioni che definiscono il codice sorgente che implementa la pipeline. Include anche impostazioni che controllano l'infrastruttura della pipeline, la gestione delle dipendenze, il modo in cui vengono elaborati gli aggiornamenti e il modo in cui le tabelle vengono salvate nell'area di lavoro. La maggior parte delle configurazioni è facoltativa, ma alcune richiedono un'attenzione attenta.

Per informazioni sulle opzioni di configurazione per le pipeline e su come usarle, vedere Configurare le impostazioni della pipeline per le tabelle live Delta.

Per specifiche dettagliate delle impostazioni delle tabelle live Delta, le proprietà che controllano la modalità di gestione delle tabelle e le opzioni di calcolo non impostabili, vedere Informazioni di riferimento sulle proprietà delle tabelle live Delta.

Gestire le dipendenze esterne per le pipeline che usano Python

Le tabelle live delta supportano l'uso di dipendenze esterne nelle pipeline, ad esempio pacchetti e librerie Python. Per informazioni sulle opzioni e le raccomandazioni per l'uso delle dipendenze, vedere Gestire le dipendenze Python per le pipeline di tabelle live Delta.

Usare i moduli Python archiviati nell'area di lavoro di Azure Databricks

Oltre a implementare il codice Python nei notebook di Databricks, è possibile usare cartelle Git o file di area di lavoro di Databricks per archiviare il codice come moduli Python. L'archiviazione del codice come moduli Python è particolarmente utile quando si hanno funzionalità comuni da usare in più pipeline o più notebook nella stessa pipeline. Per informazioni su come usare i moduli Python con le pipeline, vedere Importare moduli Python da cartelle Git o file dell'area di lavoro.

Ottimizzare l'utilizzo delle risorse di calcolo della pipeline

Usare la scalabilità automatica avanzata per ottimizzare l'utilizzo del cluster delle pipeline. La scalabilità automatica avanzata aggiunge risorse aggiuntive solo se il sistema determina che tali risorse aumentano la velocità di elaborazione della pipeline. Le risorse vengono liberate quando non sono più necessarie e i cluster vengono arrestati non appena vengono completati tutti gli aggiornamenti della pipeline.

Per altre informazioni sulla scalabilità automatica avanzata, inclusi i dettagli di configurazione, vedere Ottimizzare l'utilizzo del cluster delle pipeline di tabelle live Delta con scalabilità automatica avanzata.

Share via