Copiare in modo incrementale nuovi file in base al nome file partizionato in base al tempo usando lo strumento Copia dati

SI APPLICA A: Azure Data Factory Azure Synapse Analytics

Suggerimento

Provare Data Factory in Microsoft Fabric, una soluzione di analisi completa per le aziende. Microsoft Fabric copre tutti gli elementi, dallo spostamento dei dati all'analisi scientifica dei dati, all'analisi in tempo reale, alla business intelligence e alla creazione di report. Scopri come avviare gratuitamente una nuova versione di valutazione .

In questa esercitazione si usa il portale di Azure per creare una data factory. Usare quindi lo strumento Copia dati per creare una pipeline che copia in modo incrementale nuovi file in base al nome di file partizionato in tempo dall'archivio BLOB di Azure all'archivio BLOB di Azure.

Nota

Se non si ha familiarità con Azure Data Factory, vedere Introduzione ad Azure Data Factory.

In questa esercitazione si segue questa procedura:

  • Creare una data factory.
  • Usare lo strumento Copia dati per creare una pipeline.
  • Monitorare le esecuzioni di pipeline e attività.

Prerequisiti

  • Sottoscrizione di Azure: se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
  • Account di archiviazione di Azure: usare l'archiviazione BLOB come archivio dati di origine e sink . Se non è disponibile un account di archiviazione di Azure, vedere le istruzioni fornite in Creare un account di archiviazione.

Creare due contenitori nell'archivio BLOB

Preparare l'archiviazione BLOB per l'esercitazione eseguendo questi passaggi.

  1. Creare un contenitore denominato source. Creare un percorso di cartella come 15/07/2021/2021 nel contenitore. Creare un file di testo vuoto e denominarlo come file1.txt. Caricare il file1.txt nell'origine percorso cartella/2021/07/15/06 nell'account di archiviazione. Per eseguire queste attività è possibile usare vari strumenti, ad esempio Azure Storage Explorer.

    upload files

    Nota

    Modificare il nome della cartella con l'ora UTC. Ad esempio, se l'ora UTC corrente è 06:10 il 15 luglio 2021, è possibile creare il percorso della cartella come origine/2021/07/15/06/ dalla regola di origine/{Anno}/{Mese}/{Giorno}/{Ora}/.

  2. Creare un contenitore denominato destination. Per eseguire queste attività è possibile usare vari strumenti, ad esempio Azure Storage Explorer.

Creare una data factory

  1. Nel menu sinistro selezionare Crea una risorsa>Integrazione>Data factory:

    Data Factory selection in the "New" pane

  2. Nella pagina Nuova data factory immettere ADFTutorialDataFactory in Nome.

    Il nome della data factory deve essere univoco a livello globale. Potrebbe essere visualizzato il messaggio di errore seguente:

    New data factory error message for duplicate name.

    Se viene visualizzato un messaggio di errore relativo al valore del nome, immettere un nome diverso per la data factory. Ad esempio, usare il nome nomeutenteADFTutorialDataFactory. Per informazioni sulle regole di denominazione per gli elementi di Data Factory, vedere Azure Data Factory - Regole di denominazione.

  3. Selezionare la sottoscrizione di Azure in cui creare la nuova data factory.

  4. In Gruppo di risorse eseguire una di queste operazioni:

    a. Selezionare Usa esistentee scegliere un gruppo di risorse esistente dall'elenco a discesa.

    b. Selezionare Crea nuovoe immettere un nome per il gruppo di risorse.

    Per informazioni sui gruppi di risorse, vedere l'articolo su come usare gruppi di risorse per gestire le risorse di Azure.

  5. In Versione selezionare la versione V2.

  6. In Località selezionare la località per la data factory. Nell'elenco a discesa vengono visualizzate solo le località supportate. Gli archivi dati (ad esempio, Archiviazione di Azure e il database SQL) e le risorse di calcolo (ad esempio, Azure HDInsight) usati dalla data factory possono trovarsi in altre località e aree.

  7. Seleziona Crea.

  8. Al termine della creazione verrà visualizzata la home page Data factory.

  9. Per avviare l'interfaccia utente di Azure Data Factory in una scheda separata, selezionare Apri nel riquadro Apri Azure Data Factory Studio.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

Usare lo strumento Copia dati per creare una pipeline

  1. Nella home page di Azure Data Factory selezionare il titolo Inserimento per avviare lo strumento Copia dati.

    Screenshot that shows the ADF home page.

  2. Nella pagina Proprietà seguire questa procedura:

    1. In Tipo di attività scegliere Attività di copia predefinita.

    2. In Frequenza attività o pianificazione attività selezionare la finestra a cascata.

    3. In Ricorrenza immettere 1 ora.

    4. Seleziona Avanti.

    Properties page

  3. Nella pagina Archivio dati di origine completare la procedura seguente:

    a. Selezionare + Nuova connessione per aggiungere una connessione.

    b. Selezionare Archiviazione BLOB di Azure nella raccolta e quindi Continua.

    c. Nella pagina Nuova connessione (Archiviazione BLOB di Azure) immettere un nome per la connessione. Selezionare la sottoscrizione di Azure e selezionare l'account di archiviazione dall'elenco Archiviazione nome dell'account. Testare la connessione e quindi selezionare Crea.

    Source data store page

    d. Nella pagina Archivio dati di origine selezionare la connessione appena creata nella sezione Connessione ion.

    e. Nella sezione File o cartella individuare e selezionare il contenitore di origine, quindi selezionare OK.

    f. In Comportamento di caricamento file selezionare Caricamento incrementale : nomi di file/cartelle partizionate in tempo.

    g. Scrivere il percorso della cartella dinamica come source/{year}/{month}/{day}/{hour}/e modificare il formato come illustrato nello screenshot seguente.

    h. Selezionare Copia binaria e selezionare Avanti.

    Screenshot that shows the configuration of Source data store page.

  4. Nella pagina Archivio dati di destinazione completare la procedura seguente:

    1. Selezionare AzureBlob Archiviazione, che corrisponde allo stesso account di archiviazione dell'archivio origine dati.

    2. Sfogliare e selezionare la cartella di destinazione , quindi selezionare OK.

    3. Scrivere il percorso della cartella dinamica come destinazione/{anno}/{mese}/{day}/{hour}/e modificare il formato come illustrato nello screenshot seguente.

    4. Seleziona Avanti.

    Screenshot that shows the configuration of Destination data store page.

  5. Nella pagina Impostazioni, in Nome attività immettere DeltaCopyFromBlobPipeline e quindi selezionare Avanti. L'interfaccia utente di Data Factory crea una pipeline con il nome di attività specificato.

    Screenshot that shows the configuration of settings page.

  6. Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti.

    Summary page

  7. Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività). Deployment page

  8. Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente. È necessario attendere l'esecuzione della pipeline quando viene attivata automaticamente (circa dopo un'ora). Quando viene eseguita, selezionare il collegamento deltaCopyFromBlobPipeline del nome della pipeline per visualizzare i dettagli dell'esecuzione dell'attività o rieseguire la pipeline. Selezionare Aggiorna per aggiornare l'elenco.

    Screenshot shows the Pipeline runs pane.

  9. Dato che la pipeline contiene una sola attività (attività di copia), viene visualizzata una sola voce. Modificare la larghezza delle colonne Origine e Destinazione (se necessario) per visualizzare altri dettagli, è possibile vedere che il file di origine (file1.txt) è stato copiato dall'origine /2021/07/07/15/06/ alla destinazione/2021/07/15/06/ con lo stesso nome file.

    Screenshot shows pipeline run details.

    È anche possibile verificare lo stesso usando Archiviazione di Azure Explorer (https://storageexplorer.com/) per analizzare i file.

    Screenshot shows pipeline run details for the destination.

  10. Creare un altro file di testo vuoto con il nuovo nome file2.txt. Caricare il file file2.txt nell'origine percorso cartella /2021/07/15/07 nell'account di archiviazione. Per eseguire queste attività è possibile usare vari strumenti, ad esempio Azure Storage Explorer.

    Nota

    È possibile tenere presente che è necessario creare un nuovo percorso di cartella. Modificare il nome della cartella con l'ora UTC. Ad esempio, se l'ora UTC corrente è 7:30 del mese di luglio. 15th, 2021, you can create the folder path as source/2021/07/15/07/ by the rule of {Year}/{Month}/{Day}/{Hour}/.

  11. Per tornare alla visualizzazione Esecuzioni pipeline, selezionare Tutte le esecuzioni di pipeline e attendere che la stessa pipeline venga attivata di nuovo automaticamente dopo un'altra ora.

    Screenshot shows the All pipeline runs link to return to that page.

  12. Selezionare il nuovo collegamento DeltaCopyFromBlobPipeline per la seconda esecuzione della pipeline quando arriva e fare lo stesso per esaminare i dettagli. Si noterà che il file di origine (file2.txt) è stato copiato da source/2021/07/15/07/ a destination/2021/07/15/07/ con lo stesso nome file. È anche possibile verificare lo stesso usando Archiviazione di Azure Explorer (https://storageexplorer.com/) per analizzare i file nel contenitore di destinazione.

Passare all'esercitazione successiva per informazioni sulla trasformazione dei dati usando un cluster Spark in Azure: