Zelfstudie: Op aanvraag Apache Hadoop-clusters in HDInsight met behulp van Azure Data Factory makenTutorial: Create on-demand Apache Hadoop clusters in HDInsight using Azure Data Factory

In deze zelfstudie leert u over het maken van een Apache Hadoop cluster, on-demand, in Azure HDInsight met behulp van Azure Data Factory.In this tutorial, you learn how to create a Apache Hadoop cluster, on demand, in Azure HDInsight using Azure Data Factory. Vervolgens gebruikt u gegevenspijplijnen in Azure Data Factory Hive-taken uitvoeren en verwijderen van het cluster.You then use data pipelines in Azure Data Factory to run Hive jobs and delete the cluster. Aan het einde van deze zelfstudie leert u hoe u voor het operationeel maken van een big data-taak uitgevoerd waar het cluster te maken, taak uitvoeren en verwijderen van de cluster worden uitgevoerd volgens een schema.By the end of this tutorial, you learn how to operationalize a big data job run where cluster creation, job run, and cluster deletion are performed on a schedule.

Deze zelfstudie bestaat uit de volgende taken:This tutorial covers the following tasks:

  • Een Azure-opslagaccount makenCreate an Azure storage account
  • Inzicht in Azure Data Factory-activiteitUnderstand Azure Data Factory activity
  • Een data factory maken met Azure portalCreate a data factory using Azure portal
  • Gekoppelde services makenCreate linked services
  • Een pijplijn makenCreate a pipeline
  • Een pijplijn activerenTrigger a pipeline
  • Een pijplijn bewakenMonitor a pipeline
  • De uitvoer controlerenVerify the output

Als u geen abonnement op Azure hebt, maakt u een gratis account voordat u begint.If you don't have an Azure subscription, create a free account before you begin.

VereistenPrerequisites

  • De PowerShell Az Module geïnstalleerd.The PowerShell Az Module installed.

  • Een Azure Active Directory-service-principal.An Azure Active Directory service principal. Als u de service-principal hebt gemaakt, moet u om op te halen de toepassings-ID en verificatiesleutel met behulp van de instructies in het gekoppelde artikel.Once you have created the service principal, be sure to retrieve the application ID and authentication key using the instructions in the linked article. U hebt deze waarden later in deze zelfstudie nodig.You need these values later in this tutorial. Controleer ook of de service-principal is lid van de Inzender rol van het abonnement of de resourcegroep waarin het cluster is gemaakt.Also, make sure the service principal is a member of the Contributor role of the subscription or the resource group in which the cluster is created. Zie voor instructies voor het ophalen van de vereiste waarden en de juiste rollen toewijzen maken van een Azure Active Directory service-principal.For instructions to retrieve the required values and assign the right roles, see Create an Azure Active Directory service principal.

Voorlopige Azure objecten makenCreate preliminary Azure objects

In deze sectie maakt u diverse objecten die worden gebruikt voor het maken van on-demand HDInsight-cluster.In this section, you create various objects that will be used for the HDInsight cluster you create on-demand. Het opslagaccount bevat het voorbeeld HiveQL script (partitionweblogs.hql) dat u gebruikt voor het simuleren van een voorbeeld van een Apache Hive taak die wordt uitgevoerd op het cluster.The created storage account will contain the sample HiveQL script (partitionweblogs.hql) that you use to simulate a sample Apache Hive job that runs on the cluster.

Deze sectie wordt een Azure PowerShell-script voor het maken van de storage-account en kopiëren via de vereiste bestanden in de storage-account.This section uses an Azure PowerShell script to create the storage account and copy over the required files within the storage account. De Azure PowerShell-voorbeeldscript in deze sectie worden de volgende taken uitgevoerd:The Azure PowerShell sample script in this section performs the following tasks:

  1. Als u zich aanmeldt bij Azure.Signs in to Azure.
  2. Hiermee maakt u een Azure-resourcegroep.Creates an Azure resource group.
  3. Hiermee maakt u een Azure-opslagaccount.Creates an Azure Storage account.
  4. Hiermee maakt u een Blob-container in de storage-accountCreates a Blob container in the storage account
  5. Kopieert het voorbeeld HiveQL-script (partitionweblogs.hql) de Blob-container.Copies the sample HiveQL script (partitionweblogs.hql) the Blob container. Het script is beschikbaar op https://hditutorialdata.blob.core.windows.net/adfhiveactivity/script/partitionweblogs.hql .The script is available at https://hditutorialdata.blob.core.windows.net/adfhiveactivity/script/partitionweblogs.hql. Het voorbeeldscript is al beschikbaar in een andere openbare Blob-container.The sample script is already available in another public Blob container. Het onderstaande PowerShell-script maakt een kopie van deze bestanden in de Azure Storage-account die wordt gemaakt.The PowerShell script below makes a copy of these files into the Azure Storage account it creates.

Waarschuwing

Type opslagaccount BlobStorage kan niet worden gebruikt voor HDInsight-clusters.Storage account kind BlobStorage cannot be used for HDInsight clusters.

Een storage-account maken en kopieer de bestanden met behulp van Azure PowerShell:To create a storage account and copy the files using Azure PowerShell:

Belangrijk

Geef namen voor de Azure-resourcegroep en de Azure storage-account dat door het script wordt gemaakt.Specify names for the Azure resource group and the Azure storage account that will be created by the script. Noteer groepsnaam voor accountresources, opslagaccountnaam, en opslagaccountsleutel output door het script.Write down resource group name, storage account name, and storage account key outputted by the script. U moet deze in de volgende sectie.You need them in the next section.

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
$sub = Get-AzSubscription -ErrorAction SilentlyContinue
if(-not($sub))
{
    Connect-AzAccount
}
#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzResourceGroup `
    -Name $resourceGroupName `
    -Location $location

New-AzStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -Kind StorageV2 `
    -Location $location `
    -SkuName Standard_LRS `
    -EnableHttpsTrafficOnly 1

$destStorageAccountKey = (Get-AzStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous

$destContext = New-AzStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzStorageContainer `
    -Name $destContainerName `
    -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName

$blobs|Start-AzStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzStorageBlob `
    -Context $destContext `
    -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

Om te controleren of het opslagaccount is gemaaktTo verify the storage account creation

  1. Meld u aan bij Azure Portal.Sign on to the Azure portal.
  2. Selecteer resourcegroepen in het linkerdeelvenster.Select Resource groups on the left pane.
  3. Selecteer de Resourcegroepnaam die u hebt gemaakt in uw PowerShell-script.Select the resource group name you created in your PowerShell script. Als er te veel resourcegroepen die worden vermeld, gebruikt u het filter.Use the filter if you have too many resource groups listed.
  4. Op de Resources tegel, ziet u een resource in de lijst, tenzij u de resourcegroep met andere projecten delen.On the Resources tile, you see one resource listed unless you share the resource group with other projects. Deze resource is de storage-account met de naam die u eerder hebt opgegeven.That resource is the storage account with the name you specified earlier. Selecteer de naam van het opslagaccount.Select the storage account name.
  5. Selecteer de Blobs tegels.Select the Blobs tiles.
  6. Selecteer de adfgetstarted container.Select the adfgetstarted container. Ziet u een map met de naam hivescripts.You see a folder called hivescripts.
  7. Open de map en zorg ervoor dat deze de voorbeeld-scriptbestand bevat partitionweblogs.hql.Open the folder and make sure it contains the sample script file, partitionweblogs.hql.

Inzicht in de Azure Data Factory-activiteitUnderstand the Azure Data Factory activity

Azure Data Factory wordt georganiseerd en de verplaatsing en transformatie van gegevens worden geautomatiseerd.Azure Data Factory orchestrates and automates the movement and transformation of data. Azure Data Factory kunt maken van een HDInsight Hadoop-cluster just-in-time voor het verwerken van een segment invoergegevens en verwijderen van het cluster wanneer de verwerking voltooid is.Azure Data Factory can create an HDInsight Hadoop cluster just-in-time to process an input data slice and delete the cluster when the processing is complete.

In Azure Data Factory hebben een data factory een of meer pijplijnen.In Azure Data Factory, a data factory can have one or more data pipelines. Een pijplijn heeft één of meer activiteiten.A data pipeline has one or more activities. Er zijn twee soorten activiteiten:There are two types of activities:

  • Activiteiten voor gegevensverplaatsing -gebruik van activiteiten voor gegevensverplaatsing om gegevens te verplaatsen van een brongegevensarchief naar een doelgegevensarchief.Data Movement Activities - You use data movement activities to move data from a source data store to a destination data store.
  • Activiteiten voor gegevenstransformatie.Data Transformation Activities. Kunt u activiteiten voor gegevenstransformatie gegevens transformeren en verwerken.You use data transformation activities to transform/process data. HDInsight Hive-activiteit is een van de activiteiten voor gegevenstransformatie ondersteund door Data Factory.HDInsight Hive Activity is one of the transformation activities supported by Data Factory. U de Hive-transformatie-activiteit gebruiken in deze zelfstudie.You use the Hive transformation activity in this tutorial.

In dit artikel configureert u de Hive-activiteit voor het maken van een on-demand HDInsight Hadoop-cluster.In this article, you configure the Hive activity to create an on-demand HDInsight Hadoop cluster. Wanneer de activiteit wordt uitgevoerd om gegevens te verwerken, is dit wat er gebeurt:When the activity runs to process data, here is what happens:

  1. Een HDInsight Hadoop-cluster wordt automatisch gemaakt voor u just-in-time voor het verwerken van het segment.An HDInsight Hadoop cluster is automatically created for you just-in-time to process the slice.

  2. De ingevoerde gegevens worden verwerkt door een HiveQL-script uitgevoerd op het cluster.The input data is processed by running a HiveQL script on the cluster. In deze zelfstudie worden de volgende acties uitgevoerd door het HiveQL-script dat is gekoppeld aan het hive-activiteit:In this tutorial, the HiveQL script associated with the hive activity performs the following actions:

    • Maakt gebruik van de bestaande tabel (hivesampletable) te maken van een andere tabel HiveSampleOut.Uses the existing table (hivesampletable) to create another table HiveSampleOut.
    • Vult de HiveSampleOut tabel met alleen bepaalde kolommen uit de oorspronkelijke hivesampletable.Populates the HiveSampleOut table with only specific columns from the original hivesampletable.
  3. Het HDInsight Hadoop-cluster wordt verwijderd nadat de verwerking voltooid is en het cluster niet actief voor de geconfigureerde hoeveelheid tijd (timeToLive-instelling is).The HDInsight Hadoop cluster is deleted after the processing is complete and the cluster is idle for the configured amount of time (timeToLive setting). Als het volgende gegevenssegment voor verwerking met deze timeToLive niet-actieve tijd beschikbaar is, wordt hetzelfde cluster wordt gebruikt voor het verwerken van het segment.If the next data slice is available for processing with in this timeToLive idle time, the same cluster is used to process the slice.

Een gegevensfactory makenCreate a data factory

  1. Meld u aan bij Azure Portal.Sign in to the Azure portal.

  2. In het menu links, gaat u naar + een resource maken > Analytics > Data Factory.From the left menu, navigate to + Create a resource > Analytics > Data Factory.

    Azure Data Factory in de portalAzure Data Factory on the portal

  3. Typ of Selecteer de volgende waarden voor de nieuwe data factory tegel:Enter or select the following values for the New data factory tile:

    EigenschapProperty ValueValue
    NameName Voer een naam voor de data factory.Enter a name for the data factory. Deze naam moet wereldwijd uniek zijn.This name must be globally unique.
    SubscriptionSubscription Selecteer uw Azure-abonnement.Select your Azure subscription.
    Resource groupResource group Selecteer gebruik bestaande en selecteer vervolgens de resourcegroep die u hebt gemaakt met de PowerShell-script.Select Use existing and then select the resource group you created using the PowerShell script.
    VersionVersion Laat op V2.Leave at V2.
    LocationLocation De locatie is automatisch ingesteld op de locatie die u hebt opgegeven tijdens het maken van de resourcegroep eerder.The location is automatically set to the location you specified while creating the resource group earlier. Voor deze zelfstudie, de locatie is ingesteld op VS-Oost.For this tutorial, the location is set to East US.

    Azure Data Factory maken met Azure portalCreate Azure Data Factory using Azure portal

  4. Selecteer Maken.Select Create. Het maken van een data factory kan duren voordat tussen 2 tot 4 minuten.Creating a data factory might take anywhere between 2 to 4 minutes.

  5. Nadat de gegevensfactory is gemaakt, ontvangt u een implementatie is voltooid melding met een naar de resource gaan knop.Once the data factory is created, you will receive a Deployment succeeded notification with a Go to resource button. Selecteer naar de resource gaan om de weergave van de standaard Data Factory te openen.Select Go to resource to open the Data Factory default view.

  6. Selecteer Author & Monitor om te starten van de Azure Data Factory voor ontwerp en controle van de portal.Select Author & Monitor to launch the Azure Data Factory authoring and monitoring portal.

    Overzicht van Azure Data FactoryAzure Data Factory overview

Gekoppelde services makenCreate linked services

In deze sectie maakt maken u twee gekoppelde services in uw data factory.In this section, you author two linked services within your data factory.

  • Een gekoppelde Azure Storage-service waarmee een Azure-opslagaccount wordt gekoppeld aan de gegevensfactory.An Azure Storage linked service that links an Azure storage account to the data factory. Deze opslag wordt gebruikt voor het HDInsight-cluster op aanvraag.This storage is used by the on-demand HDInsight cluster. Het bevat ook het Hive-script dat wordt uitgevoerd op het cluster.It also contains the Hive script that is run on the cluster.
  • Een gekoppelde HDInsight-service op aanvraag.An on-demand HDInsight linked service. Azure Data Factory wordt automatisch een HDInsight-cluster maakt en het Hive-script wordt uitgevoerd.Azure Data Factory automatically creates an HDInsight cluster and runs the Hive script. Het HDInsight-cluster wordt vervolgens verwijderd als het cluster gedurende een vooraf geconfigureerde tijd inactief is geweest.It then deletes the HDInsight cluster after the cluster is idle for a preconfigured time.

Een gekoppelde Azure Storage-service makenCreate an Azure Storage linked service

  1. In het linkerdeelvenster van de aan de slag weergeeft, schakelt de auteur pictogram.From the left pane of the Let's get started page, select the Author icon.

    Maak een gekoppelde Azure Data Factory-serviceCreate an Azure Data Factory linked service

  2. Selecteer verbindingen in de linkerbenedenhoek van het venster en selecteer vervolgens + nieuw.Select Connections from the bottom-left corner of the window and then select +New.

    Verbindingen maken in Azure Data FactoryCreate connections in Azure Data Factory

  3. In de nieuwe gekoppelde Service in het dialoogvenster, selecteer Azure Blob Storage en selecteer vervolgens doorgaan.In the New Linked Service dialog box, select Azure Blob Storage and then select Continue.

    Gekoppelde maken Azure Storage-service voor Data FactoryCreate Azure Storage linked service for Data Factory

  4. Geef de volgende waarden voor de gekoppelde storage-service:Provide the following values for the storage linked service:

    EigenschapProperty ValueValue
    NameName Voer HDIStorageLinkedService in.Enter HDIStorageLinkedService.
    Azure-abonnementAzure subscription Selecteer uw abonnement in de vervolgkeuzelijst.Select your subscription from the drop-down list.
    Naam van opslagaccountStorage account name Selecteer het Azure Storage-account dat u hebt gemaakt als onderdeel van het PowerShell-script.Select the Azure Storage account you created as part of the PowerShell script.

    Selecteer vervolgens Voltooien.Then select Finish.

    Geef de naam op voor Azure Storage gekoppelde serviceProvide name for Azure Storage linked service

Een gekoppelde HDInsight-service op aanvraag makenCreate an on-demand HDInsight linked service

  1. Selecteer nogmaals de knop + Nieuw om een andere gekoppelde service te maken.Select the + New button again to create another linked service.

  2. In de nieuwe gekoppelde Service venster de Compute tabblad.In the New Linked Service window, select the Compute tab.

  3. Selecteer Azure HDInsight, en selecteer vervolgens doorgaan.Select Azure HDInsight, and then select Continue.

    Create HDInsight gekoppelde service voor Azure Data FactoryCreate HDInsight linked service for Azure Data Factory

  4. In de nieuwe gekoppelde Service venster, voer de volgende waarden en laat de rest standaard:In the New Linked Service window, enter the following values and leave the rest as default:

    EigenschapProperty ValueValue
    NameName Voer HDInsightLinkedService in.Enter HDInsightLinkedService.
    TypeType Selecteer On-demand HDInsight.Select On-demand HDInsight.
    Een gekoppelde Azure Storage-serviceAzure Storage Linked Service Selecteer HDIStorageLinkedService.Select HDIStorageLinkedService.
    ClustertypeCluster type Selecteer hadoopSelect hadoop
    Time To LiveTime to live Geef de duur die u het HDInsight-cluster wilt moet beschikbaar zijn voordat het wordt automatisch verwijderd.Provide the duration for which you want the HDInsight cluster to be available before being automatically deleted.
    Service-principal-IDService principal ID Geef de toepassings-ID van de service-principal voor Azure Active Directory die u hebt gemaakt als onderdeel van de vereisten.Provide the application ID of the Azure Active Directory service principal you created as part of the prerequisites.
    Sleutel van service-principalService principal key Geef de verificatiesleutel voor de Azure Active Directory service-principal.Provide the authentication key for the Azure Active Directory service principal.
    Het voorvoegsel van clusterCluster name prefix Geef een waarde die wordt voorafgegaan aan de clustertypen die zijn gemaakt door de data factory.Provide a value that will be prefixed to all the cluster types that are created by the data factory.
    SubscriptionSubscription Selecteer uw abonnement in de vervolgkeuzelijst.Select your subscription from the drop-down list.
    Resourcegroep selecterenSelect resource group Selecteer de resourcegroep die u hebt gemaakt als onderdeel van het PowerShell-script dat u eerder hebt gebruikt.Select the resource group you created as part of the PowerShell script you used earlier.
    Regio selecterenSelect region Selecteer een regio in de vervolgkeuzelijst.Select a region from the drop-down list.
    OS-type/Cluster SSH-gebruikersnaamOS type/Cluster SSH user name Voer de naam van een SSH-gebruiker meestal sshuser.Enter an SSH user name, commonly sshuser.
    OS-type/Cluster SSH-wachtwoordOS type/Cluster SSH password Geef een wachtwoord op voor de SSH-gebruikerProvide a password for the SSH user
    Naam van besturingssysteem clustertype/gebruikerOS type/Cluster user name Voer een gebruikersnaam cluster vaak admin.Enter a cluster user name, commonly admin.
    OS-type/Cluster gebruikerswachtwoordOS type/Cluster user password Een wachtwoord opgeven voor de clustergebruiker.Provide a password for the cluster user.

    Selecteer vervolgens Voltooien.Then select Finish.

    Geef waarden voor HDInsight gekoppelde serviceProvide values for HDInsight linked service

Een pijplijn makenCreate a pipeline

  1. Selecteer de knop + (plus) en selecteer vervolgens Pijplijn.Select the + (plus) button, and then select Pipeline.

    Een pijplijn maakt in Azure Data FactoryCreate a pipeline in Azure Data Factory

  2. In de activiteiten werkset Vouw HDInsight, en sleep de Hive activiteit naar het ontwerpoppervlak voor pijplijnen.In the Activities toolbox, expand HDInsight, and drag the Hive activity to the pipeline designer surface. In de algemene tabblad, Geef een naam op voor de activiteit.In the General tab, provide a name for the activity.

    Activiteiten toevoegen aan de Data Factory-pijplijnAdd activities to Data Factory pipeline

  3. Zorg ervoor dat u hebt de Hive-activiteit die is geselecteerd, selecteer de HDI-Cluster tabblad, en van de gekoppelde Service HDInsight vervolgkeuzelijst, selecteer de gekoppelde service dat u eerder hebt gemaakt, HDinightLinkedService, voor HDInsight.Make sure you have the Hive activity selected, select the HDI Cluster tab, and from the HDInsight Linked Service drop-down list, select the linked service you created earlier, HDinightLinkedService, for HDInsight.

    Geef HDInsight-clusterdetails op voor de pijplijnProvide HDInsight cluster details for the pipeline

  4. Selecteer de Script tabblad en voer de volgende stappen uit:Select the Script tab and complete the following steps:

    1. Voor Script gekoppelde Service, selecteer HDIStorageLinkedService uit de vervolgkeuzelijst.For Script Linked Service, select HDIStorageLinkedService from the drop-down list. Deze waarde is de gekoppelde storage-service die u eerder hebt gemaakt.This value is the storage linked service you created earlier.

    2. Voor bestandspad, selecteer Browse Storage en navigeer naar de locatie waar de voorbeeld-Hive-script beschikbaar is.For File Path, select Browse Storage and navigate to the location where the sample Hive script is available. Als u eerder hebt uitgevoerd van het PowerShell-script, deze locatie moet zijn adfgetstarted/hivescripts/partitionweblogs.hql.If you ran the PowerShell script earlier, this location should be adfgetstarted/hivescripts/partitionweblogs.hql.

      Geef details van de Hive-script voor de pijplijnProvide Hive script details for the pipeline

    3. Onder Geavanceerd > Parameters, selecteer automatisch ingevuld uit het script.Under Advanced > Parameters, select Auto-fill from script. Deze optie ziet er uit voor de parameters waarvoor waarden tijdens runtime in de Hive-script.This option looks for any parameters in the Hive script that require values at runtime. Het script dat u gebruikt (partitionweblogs.hql) heeft een uitvoer parameter.The script you use (partitionweblogs.hql) has an Output parameter. Geef de waarde in de indeling wasb://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ om te verwijzen naar een bestaande map op uw Azure-opslag.Provide the value in the format wasb://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ to point to an existing folder on your Azure Storage. Het pad is hoofdlettergevoelig.The path is case-sensitive. Dit is het pad waar u de uitvoer van het script wordt opgeslagen.This is the path where the output of the script will be stored.

      Geef parameters op voor de Hive-scriptProvide parameters for the Hive script

  5. Selecteer valideren voor het valideren van de pijplijn.Select Validate to validate the pipeline. Selecteer de >> (pijl-rechts) om het validatievenster te sluiten.Select the >> (right arrow) button to close the validation window.

    Valideren van de Azure Data Factory-pijplijnValidate the Azure Data Factory pipeline

  6. Selecteer ten slotte Alles publiceren de artefacten publiceren naar Azure Data Factory.Finally, select Publish All to publish the artifacts to Azure Data Factory.

    Publiceren van de Azure Data Factory-pijplijnPublish the Azure Data Factory pipeline

Een pijplijn activerenTrigger a pipeline

  1. Selecteer in de werkbalk op het ontwerpoppervlak voor pijplijnen toevoegen trigger > nu activeren.From the toolbar on the designer surface, select Add trigger > Trigger Now.

    De Azure Data Factory-pijplijn activerenTrigger the Azure Data Factory pipeline

  2. Selecteer voltooien in het pop-zijbalk.Select Finish in the pop-up side bar.

Een pijplijn bewakenMonitor a pipeline

  1. Ga naar het tabblad Controleren aan de linkerkant.Switch to the Monitor tab on the left. U ziet een pijplijn die worden uitgevoerd in de lijst Pipeline Runs.You see a pipeline run in the Pipeline Runs list. U ziet de status van de uitvoering onder de Status kolom.Notice the status of the run under the Status column.

    Bewaken van de Azure Data Factory-pijplijnMonitor the Azure Data Factory pipeline

  2. Selecteer Vernieuwen om de status te vernieuwen.Select Refresh to refresh the status.

  3. U kunt ook selecteren de uitvoeringen van activiteit weergeven pictogram om te zien van de activiteit die wordt uitgevoerd die is gekoppeld aan de pijplijn.You can also select the View Activity Runs icon to see the activity run associated with the pipeline. In de onderstaande schermafbeelding ziet u slechts één activiteit die wordt uitgevoerd, omdat er slechts één activiteit in de pijplijn die u hebt gemaakt.In the screenshot below, you see only one activity run since there is only one activity in the pipeline you created. Als u wilt overschakelen naar de vorige weergave, selecteert u pijplijnen boven aan de pagina.To switch back to the previous view, select Pipelines towards the top of the page.

    De Azure Data Factory pipeline-activiteit controlerenMonitor the Azure Data Factory pipeline activity

De uitvoer controlerenVerify the output

  1. Om te controleren of de uitvoer, in de Azure-portal gaat u naar het opslagaccount dat u voor deze zelfstudie gebruikt.To verify the output, in the Azure portal navigate to the storage account that you used for this tutorial. U ziet de volgende mappen of containers:You should see the following folders or containers:

    • U ziet een adfgerstarted/outputfolder die de uitvoer van de Hive-script is uitgevoerd als onderdeel van de pijplijn bevat.You see an adfgerstarted/outputfolder that contains the output of the Hive script that was run as part of the pipeline.

    • U ziet een adfhdidatafactory -<gekoppeld-service-name >-<tijdstempel > container.You see an adfhdidatafactory-<linked-service-name>-<timestamp> container. Deze container is de standaardlocatie voor de opslag van het HDInsight-cluster dat is gemaakt als onderdeel van de pijplijnuitvoering.This container is the default storage location of the HDInsight cluster that was created as part of the pipeline run.

    • U ziet een adfjobs container met de Azure Data Factory-taak zich aanmeldt.You see an adfjobs container that has the Azure Data Factory job logs.

      Controleer of de uitvoer van Azure Data Factory-pijplijnVerify the Azure Data Factory pipeline output

Resources opschonenClean up resources

Met het on-demand HDInsight-cluster maken hoeft u niet expliciet verwijderen van het HDInsight-cluster.With the on-demand HDInsight cluster creation, you do not need to explicitly delete the HDInsight cluster. Het cluster is verwijderd op basis van de configuratie die u hebt opgegeven tijdens het maken van de pijplijn.The cluster is deleted based on the configuration you provided while creating the pipeline. Zelfs nadat het cluster is verwijderd, blijven de storage-accounts die zijn gekoppeld aan het cluster echter bestaan.However, even after the cluster is deleted, the storage accounts associated with the cluster continue to exist. Dit gedrag is inherent aan het ontwerp, zodat u uw gegevens kunt behouden.This behavior is by design so that you can keep your data intact. Als u niet behouden van de gegevens wilt, kunt u het opslagaccount dat u hebt gemaakt verwijderen.However, if you do not want to persist the data, you may delete the storage account you created.

U kunt ook de hele resourcegroep die u hebt gemaakt voor deze zelfstudie verwijderen.Alternatively, you can delete the entire resource group that you created for this tutorial. Hiermee verwijdert u het opslagaccount en de Azure Data Factory die u hebt gemaakt.This deletes the storage account and the Azure Data Factory that you created.

De resourcegroep verwijderenDelete the resource group

  1. Meld u aan bij Azure Portal.Sign on to the Azure portal.

  2. Selecteer resourcegroepen in het linkerdeelvenster.Select Resource groups on the left pane.

  3. Selecteer de Resourcegroepnaam die u hebt gemaakt in uw PowerShell-script.Select the resource group name you created in your PowerShell script. Als er te veel resourcegroepen die worden vermeld, gebruikt u het filter.Use the filter if you have too many resource groups listed. Hiermee opent u de resourcegroep.It opens the resource group.

  4. Op de Resources tegel, u moet het standaardaccount voor opslag en de data factory, tenzij u de resourcegroep met andere projecten delen weergegeven.On the Resources tile, you shall have the default storage account and the data factory listed unless you share the resource group with other projects.

  5. Selecteer Resourcegroep verwijderen.Select Delete resource group. In dat geval worden de storage-account en de gegevens die zijn opgeslagen in het opslagaccount verwijderd.Doing so deletes the storage account and the data stored in the storage account.

    Resourcegroep verwijderenDelete resource group

  6. Voer de naam van de resourcegroep om te bevestigen en selecteer vervolgens verwijderen.Enter the resource group name to confirm deletion, and then select Delete.

Volgende stappenNext steps

In dit artikel hebt u geleerd hoe u Azure Data Factory gebruiken om te maken van on-demand HDInsight-cluster en voer Apache Hive taken.In this article, you learned how to use Azure Data Factory to create on-demand HDInsight cluster and run Apache Hive jobs. Ga naar het volgende artikel voor meer informatie over het maken van HDInsight-clusters met aangepaste configuratie.Advance to the next article to learn how to create HDInsight clusters with custom configuration.