Esercitazione: Creare cluster Hadoop on demand in HDInsight con Azure Data FactoryTutorial: Create on-demand Hadoop clusters in HDInsight using Azure Data Factory

In questo articolo si apprenderà come creare un cluster Hadoop on demand in Azure HDInsight con Azure Data Factory.In this article, you learn how to create a Hadoop cluster, on demand, in Azure HDInsight using Azure Data Factory. Si useranno quindi le pipeline di dati in Azure Data Factory per eseguire i processi Hive ed eliminare il cluster.You then use data pipelines in Azure Data Factory to run Hive jobs and delete the cluster. Al termine di questa esercitazione, si apprenderà come rendere operativa l'esecuzione di un processo Big Data in cui la creazione del cluster, l'esecuzione del processo e l'eliminazione del cluster vengono eseguite in base a una pianificazione.By the end of this tutorial, you learn how to operationalize a big data job run where cluster creation, job run, and cluster deletion are performed on a schedule.

Questa esercitazione illustra le attività seguenti:This tutorial covers the following tasks:

  • Creare un account di archiviazione di AzureCreate an Azure storage account
  • Comprendere l'attività di Azure Data FactoryUnderstand Azure Data Factory activity
  • Creare una data factory con il portale di AzureCreate a data factory using Azure portal
  • Creare servizi collegatiCreate linked services
  • Creare una pipelineCreate a pipeline
  • Attivare una pipelineTrigger a pipeline
  • Monitorare una pipelineMonitor a pipeline
  • Verificare l'outputVerify the output

Se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.If you don't have an Azure subscription, create a free account before you begin.

prerequisitiPrerequisites

  • Azure PowerShell.Azure PowerShell. Per istruzioni, vedere Come installare e configurare Azure PowerShell.For instructions, see Install and configure Azure PowerShell.

  • Un'entità servizio di Azure Active Directory.An Azure Active Directory service principal. Dopo aver creato l'entità servizio, assicurarsi di recuperare l'ID dell'applicazione e la chiave di autenticazione seguendo le istruzioni nell'articolo collegato.Once you have created the service principal, be sure to retrieve the application ID and authentication key using the instructions in the linked article. Più avanti in questa esercitazione saranno necessari questi valori.You need these values later in this tutorial. Assicurarsi anche che l'entità servizio sia un membro del ruolo Collaboratore della sottoscrizione o del gruppo di risorse in cui viene creato il cluster.Also, make sure the service principal is a member of the Contributor role of the subscription or the resource group in which the cluster is created. Per istruzioni su come recuperare i valori richiesti e assegnare i ruoli appropriati, vedere la pagina relativa alla creazione di un'applicazione Azure Active Directory e un'entità servizio che possano accedere alle risorse.For instructions to retrieve the required values and assign the right roles, see Create an Azure Active Directory service principal.

Creare un account di archiviazione di AzureCreate an Azure storage account

In questa sezione, creare un account di archiviazione che verrà usato come risorsa di archiviazione predefinita per il cluster HDInsight creato on demand.In this section, you create a storage account that will be used as the default storage for the HDInsight cluster you create on-demand. Questo account di archiviazione contiene anche lo script HiveQL di esempio (hivescript.hql) che consente di simulare un processo Hive di esempio eseguito nel cluster.This storage account also contains the sample HiveQL script (hivescript.hql) that you use to simulate a sample Hive job that runs on the cluster.

In questa sezione viene usato uno script Azure PowerShell per creare l'account di archiviazione e copiare i file necessari al suo interno.This section uses an Azure PowerShell script to create the storage account and copy over the required files within the storage account. Lo script di esempio di Azure PowerShell di questa sezione consente di eseguire queste operazioni:The Azure PowerShell sample script in this section performs the following tasks:

  1. Accedere ad Azure.Logs in to Azure.
  2. Crea un gruppo di risorse di Azure.Creates an Azure resource group.
  3. Creare un account di Archiviazione di Azure.Creates an Azure Storage account.
  4. Creare un contenitore BLOB nell'account di archiviazioneCreates a Blob container in the storage account
  5. Copiare lo script HiveQL di esempio (hivescript.hql) nel contenitore BLOB.Copies the sample HiveQL script (hivescript.hql) the Blob container. Lo script è disponibile all'indirizzo https://hditutorialdata.blob.core.windows.net/adfv2hiveactivity/hivescripts/hivescript.hql.The script is available at https://hditutorialdata.blob.core.windows.net/adfv2hiveactivity/hivescripts/hivescript.hql. Lo script di esempio è già disponibile in un altro contenitore BLOB pubblico.The sample script is already available in another public Blob container. Questo script di PowerShell esegue una copia di questi file nell'account di archiviazione di Azure creato.The PowerShell script below makes a copy of these files into the Azure Storage account it creates.

Per creare un account di archiviazione e copiare i file con Azure PowerShell:To create a storage account and copy the files using Azure PowerShell:

Importante

Specificare i nomi del gruppo di risorse di Azure e dell'account di archiviazione di Azure che verranno creati dallo script.Specify names for the Azure resource group and the Azure storage account that will be created by the script. Prendere nota del nome del gruppo di risorse, del nome dell'account di archiviazione e della chiave dell'account di archiviazione restituiti dallo script.Write down resource group name, storage account name, and storage account key outputted by the script. Saranno necessari nella sezione successiva.You need them in the next section.

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US 2"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
Login-AzureRmAccount
#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzureRmResourceGroup -Name $resourceGroupName -Location $location
New-AzureRmStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -type Standard_LRS `
    -Location $location

$destStorageAccountKey = (Get-AzureRmStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzureStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous
$destContext = New-AzureStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzureStorageContainer -Name $destContainerName -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzureStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName

$blobs|Start-AzureStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzureStorageBlob -Context $destContext -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

Per verificare la creazione dell'account di archiviazioneTo verify the storage account creation

  1. Accedere al portale di Azure.Sign on to the Azure portal.
  2. Selezionare Gruppi di risorse nel riquadro di sinistra.Select Resource groups on the left pane.
  3. Fare doppio clic sul nome del gruppo di risorse creato con lo script di PowerShell.Double-click the resource group name you created in your PowerShell script. Se sono presenti troppi gruppi di risorse elencati, usare il filtro.Use the filter if you have too many resource groups listed.
  4. Nel riquadro Risorse è elencata una sola risorsa, a meno che il gruppo di risorse non sia condiviso con altri progetti.On the Resources tile, you see one resource listed unless you share the resource group with other projects. Tale risorsa è l'account di archiviazione con il nome specificato in precedenza.That resource is the storage account with the name you specified earlier. Selezionare il nome dell'account di archiviazione.Select the storage account name.
  5. Fare clic sui riquadri BLOB.Select the Blobs tiles.
  6. Fare clic sul contenitore adfgetstarted.Select the adfgetstarted container. Viene visualizzata una cartella denominata hivescripts.You see a folder called hivescripts.
  7. Aprire la cartella e assicurarsi che contenga il file di script di esempio hivescript.hql.Open the folder and make sure it contains the sample script file, hivescript.hql.

Comprendere l'attività di Azure Data FactoryUnderstand the Azure Data Factory activity

Azure Data Factory orchestra e automatizza lo spostamento e la trasformazione dei dati.Azure Data Factory orchestrates and automates the movement and transformation of data. Azure Data Factory può creare un cluster Hadoop di HDInsight JIT per elaborare una sezione dati di input ed eliminare il cluster al termine dell'elaborazione.Azure Data Factory can create an HDInsight Hadoop cluster just-in-time to process an input data slice and delete the cluster when the processing is complete.

In Azure Data Factory, una data factory può includere una o più pipeline di dati.In Azure Data Factory, a data factory can have one or more data pipelines. Una pipeline di dati include una o più attività.A data pipeline has one or more activities. Sono disponibili due tipi di attività:There are two types of activities:

  • Attività di spostamento dei dati che vengono usate per spostare dati da un archivio dati di origine a un archivio dati di destinazione.Data Movement Activities - You use data movement activities to move data from a source data store to a destination data store.
  • Attività di trasformazione dei dati.Data Transformation Activities. Le attività di trasformazione dei dati vengono usate per trasformare/elaborare i dati.You use data transformation activities to transform/process data. L'attività Hive di HDInsight è una delle attività di trasformazione supportate da Data Factory.HDInsight Hive Activity is one of the transformation activities supported by Data Factory. L'attività di trasformazione Hive verrà usata in questa esercitazione.You use the Hive transformation activity in this tutorial.

In questo articolo viene configurata l'attività Hive per la creazione di un cluster Hadoop di HDInsight on demand.In this article, you configure the Hive activity to create an on-demand HDInsight Hadoop cluster. Ecco cosa accade quando l'attività viene eseguita per elaborare i dati:When the activity runs to process data, here is what happens:

  1. Viene creato automaticamente un cluster Hadoop di HDInsight JIT per elaborare la sezione.An HDInsight Hadoop cluster is automatically created for you just-in-time to process the slice.

  2. I dati di input vengono elaborati eseguendo uno script HiveQL nel cluster.The input data is processed by running a HiveQL script on the cluster. In questa esercitazione, lo script HiveQL associato all'attività Hive esegue queste azioni:In this tutorial, the HiveQL script associated with the hive activity performs the following actions:

    • Usa la tabella esistente (hivesampletable) per creare un'altra tabella HiveSampleOut.Uses the existing table (hivesampletable) to create another table HiveSampleOut.
    • Popola la tabella HiveSampleOut solo con colonne specifiche dalla tabella hivesampletable originale.Populates the HiveSampleOut table with only specific columns from the original hivesampletable.
  3. Il cluster Hadoop di HDInsight viene eliminato al termine dell'elaborazione ed è inattivo per l'intervallo di tempo configurato (impostazione timeToLive).The HDInsight Hadoop cluster is deleted after the processing is complete and the cluster is idle for the configured amount of time (timeToLive setting). Se la sezione dati successiva è disponibile per l'elaborazione entro il tempo di inattività di timeToLive, per l'elaborazione della sezione viene usato lo stesso cluster.If the next data slice is available for processing with in this timeToLive idle time, the same cluster is used to process the slice.

Creare un'istanza di Data factoryCreate a data factory

  1. Accedere al Portale di Azure.Log in to the Azure portal.

  2. Nel portale di Azure selezionare Create a resource > Data + Analytics > Data Factory (Crea una risorsa>Dati e analisi>Data Factory).In the Azure portal, select Create a resource > Data + Analytics > Data Factory.

    Azure Data Factory sul portaleAzure Data Factory on the portal

  3. Immettere o selezionare i valori, come illustrato nello screenshot seguente:Enter or select the values as shown in the following screenshot:

    Creare Azure Data Factory tramite il portale di AzureCreate Azure Data Factory using Azure portal

    Immettere o selezionare i valori seguenti:Enter or select the following values:

    ProprietàProperty DESCRIZIONEDescription
    NomeName Immettere un nome per la data factory.Enter a name for the data factory. Il nome deve essere univoco a livello globale.This name must be globally unique.
    SottoscrizioneSubscription Selezionare la sottoscrizione di Azure.Select your Azure subscription.
    Gruppo di risorseResource group Selezionare Use existing (Usa esistente) e quindi selezionare il gruppo di risorse creato con lo script di PowerShell.Select Use existing and then select the resource group you created using the PowerShell script.
    VersioneVersion Selezionare V2 (anteprima)Select V2 (Preview)
    PosizioneLocation Il percorso viene automaticamente impostato sulla posizione specificata durante la creazione del gruppo di risorse precedente.The location is automatically set to the location you specified while creating the resource group earlier. Per questa esercitazione, il percorso viene impostato su Stati Uniti orientali 2.For this tutorial, the location is set to East US 2.
  4. Selezionare Aggiungi al dashboard e quindi selezionare Crea.Select Pin to dashboard, and then select Create. Verrà visualizzato un nuovo riquadro denominato Invio della distribuzione nel dashboard del portale.You shall see a new tile titled Submitting deployment on the portal dashboard. La creazione di una data factory potrebbe richiedere tra 2 e 4 minuti.Creating a data factory might take anywhere between 2 to 4 minutes.

    Stato di avanzamento della Distribuzione modelliTemplate deployment progress

  5. Dopo la creazione, nel portale viene visualizzata la panoramica della data factory.Once the data factory is created, the portal shows the overview for the data factory.

    Panoramica di Azure Data FactoryAzure Data Factory overview

  6. Selezionare Crea e monitora per avviare il portale di creazione e monitoraggio di Azure Data Factory.Select Author & Monitor to launch the Azure Data Factory authoring and monitoring portal.

Creare servizi collegatiCreate linked services

In questa sezione si creano due servizi collegati nella data factory.In this section, you author two linked services within your data factory.

  • Un servizio collegato Archiviazione di Azure che collega un account di archiviazione di Azure alla data factory.An Azure Storage linked service that links an Azure storage account to the data factory. Questo archivio viene usato dal cluster HDInsight su richiesta.This storage is used by the on-demand HDInsight cluster. Include anche lo script Hive che è in esecuzione nel cluster.It also contains the Hive script that is run on the cluster.
  • Un servizio collegato HDInsight su richiesta.An on-demand HDInsight linked service. Azure Data Factory crea automaticamente un cluster HDInsight ed esegue lo script Hive.Azure Data Factory automatically creates an HDInsight cluster and runs the Hive script. Elimina quindi il cluster HDInsight dopo un tempo di inattività preconfigurato.It then deletes the HDInsight cluster after the cluster is idle for a preconfigured time.

Creare un servizio collegato Archiviazione di AzureCreate an Azure Storage linked service

  1. Nel riquadro di sinistra della pagina Attività iniziali selezionare l'icona Modifica.From the left pane of the Let's get started page, select the Edit icon.

    Creare un servizio collegato Azure Data FactoryCreate an Azure Data Factory linked service

  2. Selezionare Connessioni nell'angolo inferiore sinistro della finestra e quindi + Nuovo.Select Connections from the bottom-left corner of the window and then select +New.

    Creare connessioni in Azure Data FactoryCreate connections in Azure Data Factory

  3. Nella finestra di dialogo New Linked Service (Nuovo servizio collegato) selezionare Archiviazione BLOB di Azure e quindi Continua.In the New Linked Service dialog box, select Azure Blob Storage and then select Continue.

    Creare un servizio di archiviazione di Azure collegato per la data factoryCreate Azure Storage linked service for Data Factory

  4. Specificare un nome per il servizio di archiviazione collegato, selezionare l'account di archiviazione di Azure creato come parte dello script PowerShell e quindi selezionare Fine.Provide a name for the storage linked service, select the Azure Storage account you created as part of the PowerShell script, and then select Finish.

    Specificare un nome per il servizio di archiviazione di Azure collegatoProvide name for Azure Storage linked service

Creare un servizio collegato HDInsight su richiestaCreate an on-demand HDInsight linked service

  1. Selezionare il pulsante + Nuovo per creare un altro servizio collegato.Select the + New button again to create another linked service.

  2. Nella finestra New Linked Service (Nuovo servizio collegato) selezionare Calcolo > Azure HDInsight e quindi selezionare Continua.In the New Linked Service window, select Compute > Azure HDInsight, and then select Continue.

    Creare un servizio collegato HDInsight per Azure Data FactoryCreate HDInsight linked service for Azure Data Factory

  3. Nella finestra New Linked Service (Nuovo servizio collegato) specificare i valori richiesti.In the New Linked Service window, provide the required values.

    Fornire i valori per il servizio collegato HDInsightProvide values for HDInsight linked service

    Immettere i valori seguenti e lasciare le altre impostazioni sui valori predefiniti.Enter the following values and leave the rest as default.

    ProprietàProperty DESCRIZIONEDescription
    NOMEName Immettere un nome per il servizio collegato HDInsightEnter a name for the HDInsight linked service
    typeType Selezionare HDInsight on demandSelect On-demand HDInsight
    Servizio collegato Archiviazione di AzureAzure Storage Linked Service Selezionare il servizio collegato di archiviazione creato in precedenza.Select the Storage linked service you created earlier.
    Tipo di clusterCluster type Selezionare hadoopSelect hadoop
    Durata (TTL)Time to live Specificare il periodo per cui si desidera che il cluster HDInsight sia disponibile prima di essere eliminato automaticamente.Provide the duration for which you want the HDInsight cluster to be available before being automatically deleted.
    ID entità servizioService principal ID Fornire l'ID applicazione dell'entità servizio di Azure Active Directory che è stata creata come parte dei prerequisitiProvide the application ID of the Azure Active Directory service principal you created as part of the prerequisites
    Chiave entità servizioService principal key Specificare la chiave di autenticazione per l'entità servizio di Azure Active DirectoryProvide the authentication key for the Azure Active Directory service principal
    Prefisso nome clusterCluster name prefix Fornire un valore che precederà tutti i tipi di cluster creati dalla data factoryProvide a value that will be prefixed to all the cluster types that are created by the data factory
    Gruppo di risorseResource group Selezionare il gruppo di risorse creato come parte dello script PowerShell usato in precedenzaSelect the resource group you created as part of the PowerShell script you used earlier
    Nome utente cluster SSHCluster SSH user name Immettere un nome utente SSHEnter an SSH user name
    Password cluster SSHCluster SSH password Fornire una password per l'utente SSHProvide a password for the SSH user

    Selezionare Fine.Select Finish.

Creare una pipelineCreate a pipeline

  1. Selezionare il pulsante + (segno più) e quindi selezionare Pipeline.Select the + (plus) button, and then select Pipeline.

    Creare una pipeline in Azure Data FactoryCreate a pipeline in Azure Data Factory

  2. Nella casella degli strumenti Attività espandere HDInsight e trascinare l'attività Hive nell'area di progettazione della pipeline.In the Activities toolbox, expand HDInsight, and drag the Hive activity to the pipeline designer surface. Nella scheda Generale specificare un nome per l'attività.In the General tab, provide a name for the activity.

    Aggiungere attività alla pipeline di Data FactoryAdd activities to Data Factory pipeline

  3. Assicurarsi di avere selezionato l'attività Hive, selezionare la scheda Cluster HDI e dall'elenco a discesa HDInsight Linked Service (Servizio collegato HDInsight) selezionare il servizio collegato creato in precedenza per HDInsight.Make sure you have the Hive activity selected, select the HDI Cluster tab, and from the HDInsight Linked Service drop-down, select the linked service you created earlier for HDInsight.

    Fornire i dettagli del cluster HDInsight per la pipelineProvide HDInsight cluster details for the pipeline

  4. Selezionare la scheda Script e completare questa procedura:Select the Script tab and complete the following steps:

    a.a. Selezionare HDIStorageLinkedService per Servizio script collegato.For Script Linked Service, select HDIStorageLinkedService. Questo è il valore del servizio di archiviazione collegato creato in precedenza.This value is the storage linked service you created earlier.

    b.b. Per Percorso file, selezionare Sfoglia risorsa di archiviazione e passare alla posizione in cui si trova lo script Hive di esempio.For File Path, select Browse Storage and navigate to the location where the sample Hive script is available. Se in precedenza è stato eseguito lo script di PowerShell, il percorso dovrebbe essere adfgetstarted/hivescripts/hivescript.hql.If you ran the PowerShell script earlier, this location should be adfgetstarted/hivescripts/hivescript.hql.

    Fornire dettagli dello script Hive per la pipelineProvide Hive script details for the pipeline

    c.c. In Avanzate > Parametri, selezionare Auto-fill from script (Compila automaticamente da script).Under Advanced > Parameters, select Auto-fill from script. Questa opzione ricerca tutti i parametri nello script Hive che richiedono valori in fase di esecuzione.This option looks for any parameters in the Hive script that require values at runtime. Lo script usato (hivescript.hql) ha un parametro di output.The script you use (hivescript.hql) has an Output parameter. Fornire il valore nel formato wasb://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/ in modo da puntare a una cartella esistente nell'Archiviazione di Azure.Provide the value in the format wasb://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/ to point to an existing folder on your Azure Storage. Il percorso fa distinzione tra maiuscole e minuscole.The path is case-sensitive. Questo è il percorso in cui verrà archiviato l'output dello script.This is the path where the output of the script will be stored.

    Fornire i parametri per lo script HiveProvide parameters for the Hive script

  5. Per convalidare la pipeline, selezionare Convalida.Select Validate to validate the pipeline. Selezionare il pulsante >> (freccia destra) per chiudere la finestra di convalida.Select the >> (right arrow) button to close the validation window.

    Convalidare la pipeline di Azure Data FactoryValidate the Azure Data Factory pipeline

  6. Infine, selezionare Publish All (Pubblica tutti) per pubblicare gli artefatti in Azure Data Factory.Finally, select Publish All to publish the artifacts to Azure Data Factory.

    Pubblicare la pipeline di Azure Data FactoryPublish the Azure Data Factory pipeline

Attivare una pipelineTrigger a pipeline

  1. Nella barra degli strumenti della finestra di progettazione selezionare Trigger > Trigger now (Attiva>Attiva ora).From the toolbar on the designer surface, select Trigger > Trigger Now.

    Attivare la pipeline di Azure Data FactoryTrigger the Azure Data Factory pipeline

  2. Selezionare Fine nella barra laterale popup.Select Finish in the pop-up side bar.

Monitorare una pipelineMonitor a pipeline

  1. Passare alla scheda Monitoraggio a sinistra.Switch to the Monitor tab on the left. Nell'elenco Pipeline Runs (Esecuzioni di pipeline) verrà visualizzata un'esecuzione della pipeline.You see a pipeline run in the Pipeline Runs list. Si noti lo stato di esecuzione nella colonna Stato.Notice the status of the run under the Status column.

    Monitorare la pipeline di Azure Data FactoryMonitor the Azure Data Factory pipeline

  2. Selezionare Aggiorna per aggiornare lo stato.Select Refresh to refresh the status.

  3. È anche possibile selezionare l'icona View Activity Runs (Visualizza le esecuzioni di attività) per visualizzare le esecuzioni di attività associate alla pipeline.You can also select the View Activity Runs icon to see the activity run associated with the pipeline. Nello screenshot qui di seguito viene visualizzata una sola esecuzione di attività perché la pipeline creata contiene una sola attività.In the screenshot below, you see only one activity run since there is only one activity in the pipeline you created. Per tornare alla visualizzazione precedente, selezionare Pipeline nella parte superiore della pagina.To switch back to the previous view, select Pipelines towards the top of the page.

    Monitorare l'attività della pipeline di Azure Data FactoryMonitor the Azure Data Factory pipeline activity

Verificare l'outputVerify the output

  1. Per verificare l'output, nel portale di Azure passare all'account di archiviazione usato per questa esercitazione.To verify the output, in the Azure portal navigate to the storage account that you used for this tutorial. Verranno visualizzate le cartelle o i contenitori seguenti:You should see the following folders or containers:

    • Viene visualizzato adfgerstarted/outputfolder che contiene l'output dello script Hive che è stato eseguito come parte della pipeline.You see an adfgerstarted/outputfolder that contains the output of the Hive script that was run as part of the pipeline.

    • Viene visualizzato un contenitore adfhdidatafactory-<linked-service-name>-<timestamp>.You see an adfhdidatafactory-<linked-service-name>-<timestamp> container. Questo contenitore è il percorso di archiviazione predefinito del cluster HDInsight che è stato creato come parte dell'esecuzione della pipeline.This container is the default storage location of the HDInsight cluster that was created as part of the pipeline run.

    • Viene visualizzato un contenitore adfjobs che include i log del processo di Azure Data Factory.You see an adfjobs container that has the Azure Data Factory job logs.

      Verificare la pipeline di Azure Data FactoryVerify the Azure Data Factory pipeline output

Eseguire la pulizia dell'esercitazioneClean up the tutorial

Con la creazione del cluster HDInsight on-demand, non è necessario eliminare in modo esplicito il cluster HDInsight.With the on-deman HDInsight cluster creation, you do not need to explicitly delete the HDInsight cluster. Il cluster verrà eliminato in base alla configurazione fornita durante la creazione della pipeline.The cluster is deleted based on the configuration you provided while creating the pipeline. Tuttavia, anche dopo l'eliminazione del cluster, gli account di archiviazione a esso associati continuano a esistere.However, even after the cluster is deleted, the storage accounts associated with the cluster continue to exist. Questo comportamento è previsto da progettazione per mantenere intatti i dati.This behavior is by design so that you can keep your data intact. Tuttavia, se non si intende rendere persistenti i dati, è possibile eliminare l'account di archiviazione creato.However, if you do not want to persist the data, you may delete the storage account you created.

In alternativa, è possibile eliminare l'intero gruppo di risorse creato per questa esercitazione.Alternatively, you can delete the entire resource group that you created for this tutorial. Ciò consente di eliminare l'account di archiviazione e Azure Data Factory creati.This deletes the storage account and the Azure Data Factory that you created.

Eliminare il gruppo di risorse.Delete the resource group

  1. Accedere al portale di Azure.Sign on to the Azure portal.
  2. Selezionare Gruppi di risorse nel riquadro di sinistra.Select Resource groups on the left pane.
  3. Selezionare il nome del gruppo di risorse creato con lo script di PowerShell.Select the resource group name you created in your PowerShell script. Se sono presenti troppi gruppi di risorse elencati, usare il filtro.Use the filter if you have too many resource groups listed. Si apre il pannello del gruppo di risorse.It opens the resource group.
  4. Nel riquadro Risorse dovrebbe essere indicato l'account di archiviazione predefinito e l'istanza Data Factory, a meno che il gruppo di risorse non sia condiviso con altri progetti.On the Resources tile, you shall have the default storage account and the data factory listed unless you share the resource group with other projects.
  5. Selezionare Elimina gruppo di risorse.Select Delete resource group. In questo modo si eliminano l'account di archiviazione e i dati in esso archiviati.Doing so deletes the storage account and the data stored in the storage account.

    Eliminare il gruppo di risorseDelete resource group

  6. Immettere il nome del gruppo di risorse per confermare l'eliminazione e quindi fare clic su Elimina.Enter the resource group name to confirm deletion, and then select Delete.

Passaggi successiviNext steps

Questo articolo descrive come usare Azure Data Factory per creare il cluster HDInsight on demand per l'elaborazione dei processi Hive.In this article, you learned how to use Azure Data Factory to create on-demand HDInsight cluster and run Hive jobs. Passare all'articolo successivo per apprendere come creare i cluster HDInsight con la configurazione personalizzata.Advance to the next artciel to learn how to create HDInsight clusters with custom configuration.