Trasmettere i dati dal BLOB di archiviazione di Azure ad Archivio Data Lake usando Analisi di flusso di AzureStream data from Azure Storage Blob into Data Lake Store using Azure Stream Analytics

In questo articolo viene descritto come usare Archivio Azure Data Lake come output per un processo di Analisi di flusso di Azure.In this article you will learn how to use Azure Data Lake Store as an output for an Azure Stream Analytics job. Questo articolo illustra uno scenario semplice in cui i dati vengono letti da un BLOB di Archiviazione di Azure (input) e scritti in Archivio Data Lake (output).This article demonstrates a simple scenario that reads data from an Azure Storage blob (input) and writes the data to Data Lake Store (output).

PrerequisitiPrerequisites

Prima di iniziare questa esercitazione, è necessario disporre di quanto segue:Before you begin this tutorial, you must have the following:

  • Una sottoscrizione di Azure.An Azure subscription. Vedere Ottenere una versione di valutazione gratuita di Azure.See Get Azure free trial.

  • Account di archiviazione di Azure.Azure Storage account. Per l'input dei dati per un processo di Analisi di flusso viene usato un contenitore BLOB da questo account.You will use a blob container from this account to input data for a Stream Analytics job. Per questa esercitazione, si supponga di disporre di un account di archiviazione storageforasa e di un contenitore incluso nell'account denominato storageforasacontainer.For this tutorial, assume you have a storage account called storageforasa and a container within the account called storageforasacontainer. Dopo aver creato il contenitore, caricare un file di dati di esempio.Once you have created the container, upload a sample data file to it.

  • Account di Archivio Data Lake di Azure.Azure Data Lake Store account. Seguire le istruzioni fornite in Introduzione ad Archivio Azure Data Lake tramite il portale di Azure.Follow the instructions at Get started with Azure Data Lake Store using the Azure Portal. Si supponga di avere un account Data Lake denominato asadatalakestore.Let's assume you have a Data Lake Store account called asadatalakestore.

Creare un processo di Analisi di flussoCreate a Stream Analytics Job

Iniziare creando un processo di Analisi di flusso che include un'origine di input e una destinazione di output.You start by creating a Stream Analytics job that includes an input source and an output destination. Per questa esercitazione, l'origine è un contenitore BLOB di Azure e la destinazione è Archivio Data Lake.For this tutorial, the source is an Azure blob container and the destination is Data Lake Store.

  1. Accedere al portale di Azure.Sign on to the Azure Portal.

  2. Nel riquadro sinistro, fare clic su Processi di Analisi di flusso, quindi fare clic su Aggiungi.From the left pane, click Stream Analytics jobs, and then click Add.

    Creare un processo di Analisi di flussoCreate a Stream Analytics Job

    Nota

    Assicurarsi di creare il processo nella stessa area dell'account di archiviazione per non incorrere in costi aggiuntivi per lo spostamento dei dati tra le aree.Make sure you create job in the same region as the storage account or you will incur additional cost of moving data between regions.

Creare un input BLOB per il processoCreate a Blob input for the job

  1. Aprire la pagina per il processo di Analisi di flusso, nel riquadro sinistro fare clic sulla scheda Input e quindi fare clic su Aggiungi.Open the page for the Stream Analytics job, from the left pane click the Inputs tab, and then click Add.

    Aggiungere un input al processoAdd an input to your job

  2. Nel pannello Nuovo input specificare i valori seguenti.On the New input blade, provide the following values.

    Aggiungere un input al processoAdd an input to your job

    • In Alias dell'input inserire un nome univoco per l'input del processo.For Input alias, enter a unique name for the job input.
    • Per Tipo di origine selezionare Flusso dati.For Source type, select Data stream.
    • Per Origine selezionare Archiviazione BLOB.For Source, select Blob storage.
    • Per Sottoscrizione selezionare Usa l'archiviazione BLOB della sottoscrizione corrente.For Subscription, select Use blob storage from current subscription.
    • Per Account di archiviazione selezionare l'account di archiviazione creato come parte dei prerequisiti.For Storage account, select the storage account that you created as part of the prerequisites.
    • Per Contenitore selezionare il contenitore creato nell'account di archiviazione selezionato.For Container, select the container that you created in the selected storage account.
    • In Formato di serializzazione eventi scegliere CSV.For Event serialization format, select CSV.
    • Per Delimitatore selezionare scheda.For Delimiter, select tab.
    • Per Codifica selezionare UTF-8.For Encoding, select UTF-8.

      Fare clic su Crea.Click Create. Il portale ora aggiunge l'input e verifica la connessione allo stesso.The portal now adds the input and tests the connection to it.

Creare un output di Archivio Data Lake per il processoCreate a Data Lake Store output for the job

  1. Aprire la pagina per il processo di Analisi di flusso, fare clic sulla scheda Output e quindi fare clic su Aggiungi.Open the page for the Stream Analytics job, click the Outputs tab, and then click Add.

    Aggiungere un output al processoAdd an output to your job

  2. Nel pannello Nuovo output specificare i valori seguenti.On the New output blade, provide the following values.

    Aggiungere un output al processoAdd an output to your job

    • In Alias dell'output inserire un nome univoco per l'output del processo.For Output alias, enter a a unique name for the job output. È un nome descrittivo usato nelle query per indirizzare l'output delle query ad Archivio Data Lake in uso.This is a friendly name used in queries to direct the query output to this Data Lake Store.
    • Per Sink selezionare Data Lkae Store.For Sink, select Data Lake Store.
    • Verrà richiesto di autorizzare l'accesso all'account Data Lake Store.You will be prompted to authorize access to Data Lake Store account. Fare clic su Autorizza.Click Authorize.
  3. Nel pannello Nuovo output continuare a specificare i valori seguenti.On the New output blade, continue to provide the following values.

    Aggiungere un output al processoAdd an output to your job

    • Per Nome account selezionare l'account Data Lake Store già creato a cui si desidera inviare l'output del processo.For Account name, select the Data Lake Store account you already created where you want the job output to be sent to.
    • In Schema prefisso percorso immettere un percorso di file usato per scrivere i file nell'account Data Lake Store specificato.For Path prefix pattern, enter a file path used to write your files within the specified Data Lake Store account.
    • Per Formato data, se nel percorso di prefisso viene usato un token di data, è possibile selezionare il formato della data in cui sono organizzati i file.For Date format, if you used a date token in the prefix path, you can select the date format in which your files are organized.
    • Per Formato ora, se nel percorso di prefisso viene usato un token di ora, specificare il formato dell'ora in cui sono organizzati i file.For Time format, if you used a time token in the prefix path, specify the time format in which your files are organized.
    • In Formato di serializzazione eventi scegliere CSV.For Event serialization format, select CSV.
    • Per Delimitatore selezionare scheda.For Delimiter, select tab.
    • Per Codifica selezionare UTF-8.For Encoding, select UTF-8.

      Fare clic su Crea.Click Create. Il portale ora aggiunge l'output e verifica la connessione allo stesso.The portal now adds the output and tests the connection to it.

Eseguire il processo di Analisi di flussoRun the Stream Analytics job

  1. Per eseguire un processo di Analisi di flusso, è necessario eseguire una query dalla scheda Query. Per questa esercitazione, è possibile eseguire la query di esempio sostituendo i segnaposto con gli alias di input e output del processo, come illustrato nella schermata seguente.To run a Stream Analytics job, you must run a query from the Query tab. For this tutorial, you can run the sample query by replacing the placeholders with the job input and output aliases, as shown in the screen capture below.

    Eseguire queryRun query

  2. Fare clic su Salva nella parte superiore dello schermo, quindi sulla scheda Panoramica e su Avvia.Click Save from the top of the screen, and then from the Overview tab, click Start. Nella finestra di dialogo selezionare Ora personalizzata, quindi selezionare la data e l'ora correnti.From the dialog box, select Custom Time, and then set the current date and time.

    Impostare l'ora del processoSet job time

    Fare clic su Avvia per avviare il processo.Click Start to start the job. L'avvio del processo può richiedere un paio di minuti.It can take up to a couple minutes to start the job.

  3. Per attivare la raccolta dei dati dal BLOB da parte del processo, copiare un file dati campione nel contenitore BLOB.To trigger the job to pick the data from the blob, copy a sample data file to the blob container. È possibile ottenere un file di dati di esempio dal repository Git di Azure Data Lake.You can get a sample data file from the Azure Data Lake Git Repository. Per questa esercitazione verrà copiato il file vehicle1_09142014.csv.For this tutorial, let's copy the file vehicle1_09142014.csv. È possibile usare vari tipi di client, ad esempio Azure Storage Explorer, per caricare i dati in un contenitore BLOB.You can use various clients, such as Azure Storage Explorer, to upload data to a blob container.

  4. Nella scheda Panoramica, in Monitoraggio è possibile visualizzare come sono stati elaborati i dati.From the Overview tab, under Monitoring, see how the data was processed.

    Monitorare il processoMonitor job

  5. Infine, è possibile verificare la disponibilità dei dati di output del processo nell'account Data Lake Store.Finally, you can verify that the job output data is available in the Data Lake Store account.

    Verificare l'outputVerify output

    Nel riquadro Esplora dati l'output viene scritto in un percorso di cartella come specificato nelle impostazioni di output di Data Lake Store (streamanalytics/job/output/{date}/{time}).In the Data Explorer pane, notice that the output is written to a folder path as specified in the Data Lake Store output settings (streamanalytics/job/output/{date}/{time}).

Vedere ancheSee also