Eseguire un aggiornamento in una pipeline di tabelle live Delta

Articolo
05/10/2024

Questo articolo illustra che cos'è un aggiornamento della pipeline delta live tables e come eseguirne uno.

Dopo aver creato una pipeline e averla pronta per l'esecuzione, si avvia un aggiornamento. Un aggiornamento della pipeline esegue le operazioni seguenti:

Avvia un cluster con la configurazione corretta.
Individua tutte le tabelle e le viste definite e verifica la presenza di eventuali errori di analisi, ad esempio nomi di colonna non validi, dipendenze mancanti ed errori di sintassi.
Crea o aggiorna tabelle e viste con i dati più recenti disponibili.

È possibile verificare la presenza di problemi nel codice sorgente di una pipeline senza attendere la creazione o l'aggiornamento delle tabelle tramite un aggiornamento convalida. La Validate funzionalità è utile quando si sviluppano o si testano pipeline consentendo di trovare e correggere rapidamente gli errori nella pipeline, ad esempio nomi di tabella o colonna non corretti.

Per informazioni su come creare una pipeline, vedere Esercitazione: Eseguire la prima pipeline di tabelle live Delta.

Avviare un aggiornamento della pipeline

Azure Databricks offre diverse opzioni per avviare gli aggiornamenti della pipeline, tra cui:

Nell'interfaccia utente di Delta Live Tables sono disponibili le opzioni seguenti:
- Fare clic sul pulsante nella pagina dei dettagli della pipeline.
- Nell'elenco delle pipeline fare clic nella colonna Azioni .
Per avviare un aggiornamento in un notebook, fare clic su Avvio tabelle > live Delta nella barra degli strumenti del notebook. Vedere Aprire o eseguire una pipeline di tabelle aperte Delta da un notebook.
È possibile attivare pipeline a livello di codice usando l'API o l'interfaccia della riga di comando. Vedere la guida all'API Tabelle live Delta.
È possibile pianificare la pipeline come processo usando l'interfaccia utente di Tabelle live Delta o l'interfaccia utente dei processi. Vedere Pianificare una pipeline.

Come le tabelle Live Delta aggiornano tabelle e viste

Le tabelle e le viste aggiornate e il modo in cui tali tabelle vengono aggiornate, dipendono dal tipo di aggiornamento:

Aggiorna tutto: tutte le tabelle attive vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per tutte le tabelle di streaming, le nuove righe vengono aggiunte alla tabella.
Aggiornamento completo: tutte le tabelle attive vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per tutte le tabelle di streaming, le tabelle Live Delta tentano di cancellare tutti i dati da ogni tabella e quindi caricare tutti i dati dall'origine di streaming.
Aggiorna selezione: il comportamento di refresh selection è identico a refresh all, ma consente di aggiornare solo le tabelle selezionate. Le tabelle attive selezionate vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per le tabelle di streaming selezionate, alla tabella vengono aggiunte nuove righe.
Selezione completa dell'aggiornamento: il comportamento di full refresh selection è identico a full refresh all, ma consente di eseguire un aggiornamento completo solo delle tabelle selezionate. Le tabelle attive selezionate vengono aggiornate in modo da riflettere lo stato corrente delle origini dati di input. Per le tabelle di streaming selezionate, le tabelle Live Delta tentano di cancellare tutti i dati da ogni tabella e quindi caricare tutti i dati dall'origine di streaming.

Per le tabelle esistente, un aggiornamento ha lo stesso comportamento di sql REFRESH in una vista materializzata. Per le nuove tabelle attive, il comportamento è identico a quello di un'operazione SQL CREATE .

Avviare un aggiornamento della pipeline per le tabelle selezionate

È possibile rielaborare i dati solo per le tabelle selezionate nella pipeline. Durante lo sviluppo, ad esempio, si modifica una singola tabella e si vuole ridurre il tempo di test oppure un aggiornamento della pipeline non riesce e si vuole aggiornare solo le tabelle non riuscite.

Nota

È possibile usare l'aggiornamento selettivo solo con pipeline attivate.

Per avviare un aggiornamento che aggiorna solo le tabelle selezionate, nella pagina Dettagli pipeline:

Fare clic su Seleziona tabelle per l'aggiornamento. Verrà visualizzata la finestra di dialogo Seleziona tabelle per l'aggiornamento .

Se non viene visualizzato il pulsante Seleziona tabelle per l'aggiornamento , verificare che la pagina Dettagli pipeline visualizzi l'aggiornamento più recente e che l'aggiornamento sia completo. Se non viene visualizzato un daG per l'aggiornamento più recente, ad esempio perché l'aggiornamento non è riuscito, il pulsante Seleziona tabelle per l'aggiornamento non viene visualizzato.
Per selezionare le tabelle da aggiornare, fare clic su ogni tabella. Le tabelle selezionate sono evidenziate ed etichettate. Per rimuovere una tabella dall'aggiornamento, fare di nuovo clic sulla tabella.
Fare clic su Aggiorna selezione.

Nota

Il pulsante Aggiorna selezione visualizza il numero di tabelle selezionate tra parentesi.

Per rielaborare i dati già inseriti per le tabelle selezionate, fare clic accanto al pulsante Aggiorna selezione e fare clic Blue Down Caret su Aggiorna selezione completa.

Avviare un aggiornamento della pipeline per le tabelle non riuscite

Se un aggiornamento della pipeline ha esito negativo a causa di errori in una o più tabelle nel grafico della pipeline, è possibile avviare un aggiornamento solo di tabelle non riuscite e di eventuali dipendenze downstream.

Nota

Le tabelle escluse non vengono aggiornate, anche se dipendono da una tabella non riuscita.

Per aggiornare le tabelle non riuscite, nella pagina Dettagli pipeline fare clic su Aggiorna tabelle non riuscite.

Per aggiornare solo le tabelle non riuscite selezionate:

Fare clic accanto al pulsante Aggiorna tabelle non riuscite e fare clic su Seleziona tabelle per l'aggiornamento. Verrà visualizzata la finestra di dialogo Seleziona tabelle per l'aggiornamento .
Per selezionare le tabelle da aggiornare, fare clic su ogni tabella. Le tabelle selezionate sono evidenziate ed etichettate. Per rimuovere una tabella dall'aggiornamento, fare di nuovo clic sulla tabella.
Fare clic su Aggiorna selezione.

Nota

Il pulsante Aggiorna selezione visualizza il numero di tabelle selezionate tra parentesi.

Per rielaborare i dati già inseriti per le tabelle selezionate, fare clic accanto al pulsante Aggiorna selezione e fare clic Blue Down Caret su Aggiorna selezione completa.

Controllare la presenza di errori in una pipeline senza attendere l'aggiornamento delle tabelle

Importante

La funzionalità di aggiornamento delle tabelle Validate live Delta è disponibile in anteprima pubblica.

Per verificare se il codice sorgente di una pipeline è valido senza eseguire un aggiornamento completo, usare Validate. Un Validate aggiornamento risolve le definizioni di set di dati e flussi definiti nella pipeline, ma non materializza o pubblica alcun set di dati. Gli errori rilevati durante la convalida, ad esempio nomi di tabella o colonna non corretti, vengono segnalati nell'interfaccia utente.

Per eseguire un Validate aggiornamento, nella pagina dei dettagli della pipeline fare clic Blue Down Caret su Accanto a Avvia e fare clic su Convalida.

Al termine dell'aggiornamento Validate , il registro eventi mostra gli eventi correlati solo all'aggiornamento Validate e non vengono visualizzate metriche nel DAG. Se vengono rilevati errori, i dettagli sono disponibili nel registro eventi.

È possibile visualizzare i risultati solo per l'aggiornamento più recente Validate . Se l'aggiornamento è stato l'aggiornamento Validate eseguito più di recente, è possibile visualizzare i risultati selezionandolo nella cronologia degli aggiornamenti. Se un altro aggiornamento viene eseguito dopo l'aggiornamento Validate , i risultati non sono più disponibili nell'interfaccia utente.

Esecuzione continua e attivata della pipeline

Se la pipeline usa la modalità di esecuzione attivata , il sistema interrompe l'elaborazione dopo aver aggiornato correttamente tutte le tabelle o le tabelle selezionate nella pipeline una sola volta, assicurandosi che ogni tabella che fa parte dell'aggiornamento venga aggiornata in base ai dati disponibili all'avvio dell'aggiornamento.

Se la pipeline usa l'esecuzione continua , Le tabelle live Delta elaborano nuovi dati man mano che arrivano nelle origini dati per mantenere aggiornati le tabelle in tutta la pipeline.

La modalità di esecuzione è indipendente dal tipo di tabella da calcolare. Entrambe le viste materializzate e le tabelle di streaming possono essere aggiornate in entrambe le modalità di esecuzione. Per evitare l'elaborazione non necessaria in modalità di esecuzione continua, le pipeline monitorano automaticamente le tabelle Delta dipendenti ed eseguono un aggiornamento solo quando il contenuto di tali tabelle dipendenti è stato modificato.

Tabella che confronta le modalità di esecuzione della pipeline di dati

La tabella seguente evidenzia le differenze tra queste modalità di esecuzione:

	Attivato	Continuo
Quando l'aggiornamento si arresta?	Una volta completato automaticamente.	Viene eseguito in modo continuo fino a quando non viene arrestato manualmente.
Quali dati vengono elaborati?	Dati disponibili all'avvio dell'aggiornamento.	Tutti i dati quando arrivano alle origini configurate.
Quali requisiti di aggiornamento dei dati sono ideali per?	Gli aggiornamenti dei dati vengono eseguiti ogni 10 minuti, ogni ora o ogni giorno.	Gli aggiornamenti dei dati desiderati sono compresi tra 10 secondi e alcuni minuti.

Le pipeline attivate possono ridurre il consumo e le spese delle risorse perché il cluster viene eseguito solo a lungo per eseguire la pipeline. Tuttavia, i nuovi dati non verranno elaborati finché non viene attivata la pipeline. Le pipeline continue richiedono un cluster sempre in esecuzione, che è più costoso, ma riduce la latenza di elaborazione.

È possibile configurare la modalità di esecuzione con l'opzione Modalità pipeline nelle impostazioni.

Come scegliere i limiti della pipeline

Una pipeline Delta Live Tables può elaborare gli aggiornamenti di una singola tabella, molte tabelle con relazione dipendente, molte tabelle senza relazioni o più flussi indipendenti di tabelle con relazioni dipendenti. Questa sezione contiene considerazioni utili per determinare come suddividere le pipeline.

Le pipeline delta live tables di dimensioni maggiori offrono numerosi vantaggi. Di seguito sono elencate le quattro opzioni disponibili.

Usare in modo più efficiente le risorse del cluster.
Ridurre il numero di pipeline nell'area di lavoro.
Ridurre la complessità dell'orchestrazione del flusso di lavoro.

Di seguito sono riportate alcune raccomandazioni comuni su come suddividere le pipeline di elaborazione:

Funzionalità di divisione ai limiti del team. Ad esempio, il team di dati può gestire pipeline per trasformare i dati mentre gli analisti dei dati mantengono pipeline che analizzano i dati trasformati.
Funzionalità suddivise in base ai limiti specifici dell'applicazione per ridurre l'accoppiamento e facilitare il riutilizzo delle funzionalità comuni.

Modalità di sviluppo e produzione

È possibile ottimizzare l'esecuzione della pipeline passando da una modalità di sviluppo a quella di produzione. Usare i Icona Attiva/Disattiva ambiente tabelle live delta pulsanti nell'interfaccia utente pipeline per passare da una modalità all'altra. Per impostazione predefinita, le pipeline vengono eseguite in modalità di sviluppo.

Quando si esegue la pipeline in modalità di sviluppo, il sistema Delta Live Tables esegue le operazioni seguenti:

Riutilizza un cluster per evitare il sovraccarico dei riavvii. Per impostazione predefinita, i cluster vengono eseguiti per due ore quando è abilitata la modalità di sviluppo. È possibile modificare questa impostazione con l'impostazione pipelines.clusterShutdown.delay in Configurare le impostazioni di calcolo.
Disabilita i tentativi di pipeline in modo da poter rilevare e correggere immediatamente gli errori.

In modalità di produzione, il sistema Delta Live Tables esegue le operazioni seguenti:

Riavvia il cluster per errori ripristinabili specifici, incluse perdite di memoria e credenziali non aggiornati.
Ritenta l'esecuzione in caso di errori specifici, ad esempio un errore di avvio di un cluster.

Nota

Il passaggio tra modalità di sviluppo e produzione controlla solo il comportamento di esecuzione del cluster e della pipeline. Archiviazione percorsi e schemi di destinazione nel catalogo per la pubblicazione di tabelle devono essere configurati come parte delle impostazioni della pipeline e non sono interessati quando si passa da una modalità all'altra.

Pianificare una pipeline

È possibile avviare una pipeline attivata manualmente o eseguire la pipeline in base a una pianificazione con un processo di Azure Databricks. È possibile creare e pianificare un processo con una singola attività della pipeline direttamente nell'interfaccia utente di Tabelle live delta o aggiungere un'attività della pipeline a un flusso di lavoro con più attività nell'interfaccia utente dei processi.

Per creare un processo a singola attività e una pianificazione per il processo nell'interfaccia utente di Tabelle live Delta:

Fare clic su Pianifica > aggiungi una pianificazione. Il pulsante Pianifica viene aggiornato per visualizzare il numero di pianificazioni esistenti se la pipeline è inclusa in uno o più processi pianificati, ad esempio Pianificazione (5).
Immettere un nome per il processo nel campo Nome processo.
Impostare Pianificazione su Pianificato.
Specificare il periodo, l'ora di inizio e il fuso orario.
Configurare uno o più indirizzi di posta elettronica per ricevere avvisi all'avvio, all'esito positivo o negativo della pipeline.
Fai clic su Crea.

Share via

Eseguire un aggiornamento in una pipeline di tabelle live Delta

Avviare un aggiornamento della pipeline

Come le tabelle Live Delta aggiornano tabelle e viste

Avviare un aggiornamento della pipeline per le tabelle selezionate

Avviare un aggiornamento della pipeline per le tabelle non riuscite

Controllare la presenza di errori in una pipeline senza attendere l'aggiornamento delle tabelle

Esecuzione continua e attivata della pipeline

Tabella che confronta le modalità di esecuzione della pipeline di dati

Come scegliere i limiti della pipeline

Modalità di sviluppo e produzione

Pianificare una pipeline

Commenti e suggerimenti

Commenti e suggerimenti

Risorse aggiuntive