Caricare dati in Azure Data Lake Storage Gen1 tramite Azure Data FactoryLoad data into Azure Data Lake Storage Gen1 by using Azure Data Factory

Azure Data Lake Storage Gen1 (in precedenza noto come Azure Data Lake Store) è un repository su vasta scala a livello aziendale per carichi di lavoro di analisi di Big Data.Azure Data Lake Storage Gen1 (previously known as Azure Data Lake Store) is an enterprise-wide hyper-scale repository for big data analytic workloads. Data Lake Storage Gen1 consente di acquisire dati di qualsiasi dimensione, tipo e velocità di inserimento.Data Lake Storage Gen1 lets you capture data of any size, type, and ingestion speed. I dati vengono acquisiti in una singola posizione per le analisi esplorative e operative.The data is captured in a single place for operational and exploratory analytics.

Azure Data Factory è un servizio di integrazione dei dati completamente gestito e basato sul cloud.Azure Data Factory is a fully managed cloud-based data integration service. È possibile usare il servizio per popolare il lake con i dati dal sistema esistente e risparmiare tempo durante la compilazione di soluzioni di analisi.You can use the service to populate the lake with data from your existing system and save time when building your analytics solutions.

Azure Data Factory offre i vantaggi seguenti per il caricamento di dati in Azure Data Lake Storage Gen1:Azure Data Factory offers the following benefits for loading data into Data Lake Storage Gen1:

  • Semplicità di configurazione: procedura guidata intuitiva in 5 passaggi, senza necessità di script.Easy to set up: An intuitive 5-step wizard with no scripting required.
  • Supporto completo per archivi dati: supporto integrato per una vasta gamma di archivi dati locali e basati su cloud.Rich data store support: Built-in support for a rich set of on-premises and cloud-based data stores. Per un elenco dettagliato, vedere la tabella degli archivi dati supportati.For a detailed list, see the table of Supported data stores.
  • Sicurezza e conformità: i dati vengono trasferiti tramite HTTPS o ExpressRoute.Secure and compliant: Data is transferred over HTTPS or ExpressRoute. La presenza di un servizio globale garantisce che i dati non oltrepassino mai il confine geografico.The global service presence ensures that your data never leaves the geographical boundary.
  • Prestazioni elevate: fino a 1 GB/s di velocità di caricamento dati in Azure Data Lake Storage Gen1.High performance: Up to 1-GB/s data loading speed into Data Lake Storage Gen1. Per informazioni, vedere Prestazioni dell'attività di copia.For details, see Copy activity performance.

Questo articolo illustra come usare lo strumento Copia dati di Data Factory per caricare dati da Amazon S3 in Azure Data Lake Storage Gen1.This article shows you how to use the Data Factory Copy Data tool to load data from Amazon S3 into Data Lake Storage Gen1. È possibile seguire una procedura simile a quella usata per copiare dati da altri tipi di archivi dati.You can follow similar steps to copy data from other types of data stores.

PrerequisitiPrerequisites

  • Sottoscrizione di Azure: se non è disponibile una sottoscrizione di Azure, creare un account gratuito prima di iniziare.Azure subscription: If you don't have an Azure subscription, create a free account before you begin.
  • Account Azure Data Lake Storage Gen1: se non si dispone di un account Azure Data Lake Storage Gen1, vedere le istruzioni in Creare un account Data Lake Storage Gen1.Data Lake Storage Gen1 account: If you don't have a Data Lake Storage Gen1 account, see the instructions in Create a Data Lake Storage Gen1 account.
  • Amazon S3: in questo articolo viene illustrato come copiare i dati da Amazon S3.Amazon S3: This article shows how to copy data from Amazon S3. È possibile usare altri archivi dati seguendo una procedura simile.You can use other data stores by following similar steps.

Creare una data factoryCreate a data factory

  1. Nel menu a sinistra selezionare Crea una risorsa > Analisi > Data factory:On the left menu, select Create a resource > Analytics > Data Factory:

    Selezione di Data Factory nel riquadro "Nuovo"

  2. Nella pagina Nuova data factory specificare i valori per i campi mostrati nell'immagine seguente:In the New data factory page, provide values for the fields that are shown in the following image:

    Pagina Nuova data factory

    • Nome: immettere un nome univoco globale per la data factory di Azure.Name: Enter a globally unique name for your Azure data factory. Se viene visualizzato l'errore "Il nome "LoadADLSG1Demo" per la data factory non è disponibile", immettere un nome diverso per la data factory.If you receive the error "Data factory name "LoadADLSG1Demo" is not available," enter a different name for the data factory. Ad esempio, è possibile usare il nome nomeutente ADFTutorialDataFactory.For example, you could use the name yournameADFTutorialDataFactory. Riprovare a creare la data factory.Try creating the data factory again. Per informazioni sulle regole di denominazione per gli elementi di Data Factory, vedere Azure Data Factory - Regole di denominazione.For the naming rules for Data Factory artifacts, see Data Factory naming rules.
    • Sottoscrizione: selezionare la sottoscrizione di Azure in cui creare la data factory.Subscription: Select your Azure subscription in which to create the data factory.
    • Gruppo di risorse: selezionare un gruppo di risorse esistente nell'elenco a discesa oppure selezionare l'opzione Crea nuovo e immettere il nome di un gruppo di risorse.Resource Group: Select an existing resource group from the drop-down list, or select the Create new option and enter the name of a resource group. Per informazioni sui gruppi di risorse, vedere l'articolo relativo all'uso di gruppi di risorse per la gestione delle risorse di Azure.To learn about resource groups, see Using resource groups to manage your Azure resources.
    • Versione: selezionare V2.Version: Select V2.
    • Località: selezionare la località per la data factory.Location: Select the location for the data factory. Nell'elenco a discesa vengono mostrate solo le località supportate.Only supported locations are displayed in the drop-down list. Gli archivi dati usati dalla data factory possono trovarsi in altre località e aree.The data stores that are used by data factory can be in other locations and regions. Questi archivi dati includono Data Lake Storage Gen1, Archiviazione di Azure, il database SQL di Azure e così via.These data stores include Azure Data Lake Storage Gen1, Azure Storage, Azure SQL Database, and so on.
  3. Selezionare Create (Crea).Select Create.

  4. Al termine della creazione, accedere alla data factory.After creation is complete, go to your data factory. Verrà visualizzata la home page Data factory, come mostrato nell'immagine seguente:You see the Data Factory home page as shown in the following image:

    Home page di Data factory

    Selezionare il riquadro Crea e monitora per avviare l'applicazione Integrazione dati in una scheda separata.Select the Author & Monitor tile to launch the Data Integration Application in a separate tab.

Inserire i dati in Data Lake Storage Gen1Load data into Data Lake Storage Gen1

  1. Nella pagina Attività iniziali selezionare il riquadro Copia dati per avviare lo strumento Copia dati:In the Get started page, select the Copy Data tile to launch the Copy Data tool:

    Riquadro dello strumento Copia dati

  2. Nella pagina Proprietà specificare CopyFromAmazonS3ToADLS per il campo Nome attività, quindi selezionare Avanti:In the Properties page, specify CopyFromAmazonS3ToADLS for the Task name field, and select Next:

    Pagina Proprietà

  3. Nella pagina Archivio dati di origine fare clic su + Crea nuova connessione:In the Source data store page, click + Create new connection:

    Pagina Archivio dati di origine

    Selezionare Amazon S3 e quindi ContinuaSelect Amazon S3, and select Continue

    Pagina Archivio dati di origine s3

  4. Nella pagina Specificare la connessione ad Amazon S3, effettuare i passaggi seguenti:In the Specify Amazon S3 connection page, do the following steps:

    1. Specificare il valore ID della chiave di accesso.Specify the Access Key ID value.

    2. Specificare il valore Chiave di accesso segreta.Specify the Secret Access Key value.

    3. Selezionare Fine.Select Finish.

      Specificare l'account di Amazon S3

    4. Si noterà una nuova connessione.You will see a new connection. Selezionare Avanti.Select Next.

    Specificare l'account di Amazon S3

  5. Nella pagina Choose the input file or folder (Scegliere il file o la cartella di input) passare alla cartella e al file da copiare.In the Choose the input file or folder page, browse to the folder and file that you want to copy over. Selezionare la cartella o il file, selezionare Scegli, quindi selezionare Avanti:Select the folder/file, select Choose, and then select Next:

    Scegliere il file o la cartella di input

  6. Scegliere il comportamento di copia selezionando le opzioni Copia i file in modo ricorsivo e Copia binaria (copia i file così come sono).Choose the copy behavior by selecting the Copy files recursively and Binary copy (copy files as-is) options. Selezionare Avanti:Select Next:

    Specificare la cartella di output

  7. Nella pagina Archivio dati di destinazione fare clic su + Crea nuova connessione, quindi selezionare Data Lake Storage Gen1 e Continua:In the Destination data store page, click + Create new connection, and then select Azure Data Lake Storage Gen1, and select Continue:

    Pagina dell'archivio dati di destinazione

  8. Nella pagina Nuovo servizio collegato (Azure Data Lake Storage Gen1) seguire questa procedura:In the New Linked Service (Azure Data Lake Storage Gen1) page, do the following steps:

    1. Selezionare l'account Data Lake Storage Gen1 per il nome dell'account Data Lake Storage.Select your Data Lake Storage Gen1 account for the Data Lake Store account name.
    2. Specificare il Tenant e scegliere Fine.Specify the Tenant, and select Finish.
    3. Selezionare Avanti.Select Next.

    Importante

    In questa procedura dettagliata si usa un'identità gestita delle risorse di Azure per autenticare l'account Data Lake Storage Gen1.In this walkthrough, you use a managed identity for Azure resources to authenticate your Data Lake Storage Gen1 account. Assicurarsi di concedere le autorizzazioni appropriate all'entità del servizio gestita in Data Lake Storage Gen1 seguendo queste istruzioni.Be sure to grant the MSI the proper permissions in Data Lake Storage Gen1 by following these instructions.

    Specificare un account Data Lake Storage Gen1

  9. Nella pagina Choose the output file or folder (Scegliere il file o la cartella di output) immettere copyfroms3 come nome della cartella di output, quindi selezionare Avanti:In the Choose the output file or folder page, enter copyfroms3 as the output folder name, and select Next:

    Specificare la cartella di output

  10. Nella pagina Impostazioni selezionare Avanti:In the Settings page, select Next:

    Pagina Impostazioni

  11. Nella pagina Riepilogo esaminare le impostazioni e quindi selezionare Avanti:In the Summary page, review the settings, and select Next:

    Pagina Riepilogo

  12. Nella pagina Distribuzione selezionare Monitoraggio per monitorare la pipeline (attività):In the Deployment page, select Monitor to monitor the pipeline (task):

    Pagina Distribuzione

  13. Si noti che la scheda Monitoraggio a sinistra è selezionata automaticamente.Notice that the Monitor tab on the left is automatically selected. La colonna Azioni contiene collegamenti per visualizzare i dettagli delle esecuzioni dell'attività ed eseguire di nuovo la pipeline:The Actions column includes links to view activity run details and to rerun the pipeline:

    Monitorare le esecuzioni di pipeline

  14. Per visualizzare le esecuzioni di attività associate all'esecuzione della pipeline, selezionare il collegamento View Activity Runs (Visualizza le esecuzioni di attività) nella colonna Azioni.To view activity runs that are associated with the pipeline run, select the View Activity Runs link in the Actions column. Dato che la pipeline contiene una sola attività (attività di copia), viene visualizzata una sola voce.There's only one activity (copy activity) in the pipeline, so you see only one entry. Per tornare alla visualizzazione delle esecuzioni di pipeline, selezionare il collegamento Pipeline in alto.To switch back to the pipeline runs view, select the Pipelines link at the top. Selezionare Aggiorna per aggiornare l'elenco.Select Refresh to refresh the list.

    Monitorare le esecuzioni delle attività

  15. Per monitorare i dettagli di esecuzione per ogni attività di copia, selezionare il collegamento Dettagli in Azioni nella visualizzazione di monitoraggio delle attività.To monitor the execution details for each copy activity, select the Details link under Actions in the activity monitoring view. È possibile monitorare dettagli come il volume dei dati copiati dall'origine al sink, la velocità effettiva dei dati, i passaggi di esecuzione con la durata corrispondente e le configurazioni usate:You can monitor details like the volume of data copied from the source to the sink, data throughput, execution steps with corresponding duration, and used configurations:

    Monitorare i dettagli di esecuzione delle attività

  16. Verificare che i dati vengano copiati nell'account Data Lake Storage Gen1:Verify that the data is copied into your Data Lake Storage Gen1 account:

    Verificare l'output di Data Lake Storage Gen1

Passaggi successiviNext steps

Leggere l'articolo seguente per altre informazioni sul supporto di Azure Data Lake Storage Gen1:Advance to the following article to learn about Data Lake Storage Gen1 support: