Kurz: Vytváření clusterů na vyžádání Apache Hadoop v HDInsight pomocí Azure Data FactoryTutorial: Create on-demand Apache Hadoop clusters in HDInsight using Azure Data Factory

V tomto článku se dozvíte, jak vytvořit Apache Hadoop clusteru na vyžádání v Azure HDInsight pomocí Azure Data Factory.In this article, you learn how to create a Apache Hadoop cluster, on demand, in Azure HDInsight using Azure Data Factory. Pak použijete datové kanály ve službě Azure Data Factory ke spuštění úlohy Hive a cluster odstranit.You then use data pipelines in Azure Data Factory to run Hive jobs and delete the cluster. Na konci tohoto kurzu se dozvíte, jak pro zprovoznění úlohu velké objemy dat spouštět, kde se vytvoření clusteru, spuštění úlohy a odstranění clusteru provádět podle plánu.By the end of this tutorial, you learn how to operationalize a big data job run where cluster creation, job run, and cluster deletion are performed on a schedule.

Tento kurz se zabývá následujícími úkony:This tutorial covers the following tasks:

  • Vytvoření účtu úložiště AzureCreate an Azure storage account
  • Porozumět aktivitě Azure Data FactoryUnderstand Azure Data Factory activity
  • Vytvoření datové továrny pomocí webu Azure portalCreate a data factory using Azure portal
  • Vytvoření propojených služebCreate linked services
  • Vytvoření kanáluCreate a pipeline
  • Aktivace kanáluTrigger a pipeline
  • Monitorování kanáluMonitor a pipeline
  • Ověření výstupuVerify the output

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.If you don't have an Azure subscription, create a free account before you begin.

PožadavkyPrerequisites

  • PowerShell Az modulu nainstalované.The PowerShell Az Module installed.

  • Instanční objekt Azure Active Directory.An Azure Active Directory service principal. Jakmile vytvoříte instanční objekt služby, je potřeba načíst ID aplikace a ověřovací klíč podle pokynů v odkazovaném článku.Once you have created the service principal, be sure to retrieve the application ID and authentication key using the instructions in the linked article. Tyto hodnoty budete potřebovat později v tomto kurzu.You need these values later in this tutorial. Také se ujistěte, že instanční objekt služby je členem skupiny Přispěvatel pro dané předplatné nebo skupinu prostředků, ve kterém se cluster vytvoří.Also, make sure the service principal is a member of the Contributor role of the subscription or the resource group in which the cluster is created. Pokyny k načtení požadované hodnoty a přiřazení správných rolí najdete v tématu vytvoření instančního objektu služby Azure Active Directory.For instructions to retrieve the required values and assign the right roles, see Create an Azure Active Directory service principal.

Vytváření objektů předběžné AzureCreate preliminary Azure objects

V této části vytvoříte různé objekty, které se použije pro cluster HDInsight, které vytvoříte na vyžádání.In this section, you create various objects that will be used for the HDInsight cluster you create on-demand. Na vytvořený účet úložiště bude obsahovat ukázky HiveQL skriptu (hivescript.hql), který používáte k simulaci ukázku Apache Hive úlohu, která běží v clusteru.The created storage account will contain the sample HiveQL script (hivescript.hql) that you use to simulate a sample Apache Hive job that runs on the cluster.

Tato část používá skript Azure Powershellu k vytvoření účtu úložiště a zkopírujte požadované soubory v rámci účtu úložiště.This section uses an Azure PowerShell script to create the storage account and copy over the required files within the storage account. Ukázkový skript Azure Powershellu v této části provádí následující úlohy:The Azure PowerShell sample script in this section performs the following tasks:

  1. Přihlásí do Azure.Signs in to Azure.
  2. Vytvoří skupinu prostředků Azure.Creates an Azure resource group.
  3. Vytvoří účet služby Azure Storage.Creates an Azure Storage account.
  4. Vytvoří kontejner objektů Blob v účtu úložištěCreates a Blob container in the storage account
  5. Ukázkový skript HiveQL zkopíruje (hivescript.hql) kontejneru objektů Blob.Copies the sample HiveQL script (hivescript.hql) the Blob container. Skript je k dispozici na https://hditutorialdata.blob.core.windows.net/adfv2hiveactivity/hivescripts/hivescript.hql .The script is available at https://hditutorialdata.blob.core.windows.net/adfv2hiveactivity/hivescripts/hivescript.hql. Ukázkový skript je již k dispozici v jiném veřejném kontejneru objektů Blob.The sample script is already available in another public Blob container. Níže uvedeného skriptu Powershellu vytvoří kopii těchto souborů do účtu služby Azure Storage, který vytvoří.The PowerShell script below makes a copy of these files into the Azure Storage account it creates.

Varování

Druh účtu úložiště BlobStorage nelze použít pro clustery HDInsight.Storage account kind BlobStorage cannot be used for HDInsight clusters.

Vytvoření účtu úložiště a kopírovat soubory pomocí Azure Powershellu:To create a storage account and copy the files using Azure PowerShell:

Důležité

Zadejte názvy pro skupinu prostředků Azure a účet úložiště Azure, který bude vytvořen skriptem.Specify names for the Azure resource group and the Azure storage account that will be created by the script. Zapište si název skupiny prostředků, název účtu úložiště, a klíč účtu úložiště výstupem skriptem.Write down resource group name, storage account name, and storage account key outputted by the script. Budete je potřebovat v další části.You need them in the next section.

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
$sub = Get-AzSubscription -ErrorAction SilentlyContinue
if(-not($sub))
{
    Connect-AzAccount
}
#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzResourceGroup `
    -Name $resourceGroupName `
    -Location $location

New-AzStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -Kind StorageV2 `
    -Location $location `
    -SkuName Standard_LRS `
    -EnableHttpsTrafficOnly 1

$destStorageAccountKey = (Get-AzStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous

$destContext = New-AzStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzStorageContainer `
    -Name $destContainerName `
    -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName

$blobs|Start-AzStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzStorageBlob `
    -Context $destContext `
    -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

Ověření vytvoření účtu úložištěTo verify the storage account creation

  1. Přihlaste se k portálu Azure Portal.Sign on to the Azure portal.
  2. Vyberte skupiny prostředků v levém podokně.Select Resource groups on the left pane.
  3. Vyberte název skupiny prostředků, kterou jste vytvořili ve vašem skriptu prostředí PowerShell.Select the resource group name you created in your PowerShell script. Pokud máte příliš mnoho skupin prostředků, které jsou uvedeny, použijte filtr.Use the filter if you have too many resource groups listed.
  4. Na prostředky dlaždici se zobrazí jeden prostředek, které jsou uvedeny, dokud skupinu prostředků sdílet s jinými projekty.On the Resources tile, you see one resource listed unless you share the resource group with other projects. Tento prostředek je účet úložiště s názvem, který jste zadali dříve.That resource is the storage account with the name you specified earlier. Vyberte název účtu úložiště.Select the storage account name.
  5. Vyberte objekty BLOB dlaždice.Select the Blobs tiles.
  6. Vyberte adfgetstarted kontejneru.Select the adfgetstarted container. Zobrazit složku s názvem hivescripts.You see a folder called hivescripts.
  7. Otevřete složku a ujistěte se, že obsahuje ukázkový soubor skriptu, hivescript.hql.Open the folder and make sure it contains the sample script file, hivescript.hql.

Porozumět aktivitě Azure Data FactoryUnderstand the Azure Data Factory activity

Azure Data Factory orchestruje a automatizuje přesouvání a transformaci dat.Azure Data Factory orchestrates and automates the movement and transformation of data. Azure Data Factory můžete vytvářet HDInsight Hadoop cluster just-in-time ke zpracování vstupní datový řez a po dokončení zpracování se cluster odstranit.Azure Data Factory can create an HDInsight Hadoop cluster just-in-time to process an input data slice and delete the cluster when the processing is complete.

Ve službě Azure Data Factory služby data factory může mít jeden nebo více datových kanálů.In Azure Data Factory, a data factory can have one or more data pipelines. Datový kanál má jednu nebo víc aktivit.A data pipeline has one or more activities. Existují dva typy aktivit:There are two types of activities:

  • Aktivity přesunu dat -použít aktivity přesunu dat pro přesun dat ze zdrojového úložiště dat do cílového úložiště dat.Data Movement Activities - You use data movement activities to move data from a source data store to a destination data store.
  • Aktivity transformace dat.Data Transformation Activities. Transformovat a zpracovávat data pomocí aktivity transformace dat.You use data transformation activities to transform/process data. Aktivita HDInsight Hive je jedním z aktivity transformace podporovaných službou Data Factory.HDInsight Hive Activity is one of the transformation activities supported by Data Factory. V tomto kurzu použijete aktivitu Hive transformace.You use the Hive transformation activity in this tutorial.

V tomto článku nakonfigurujete aktivitu Hive k vytvoření clusteru HDInsight Hadoop na vyžádání.In this article, you configure the Hive activity to create an on-demand HDInsight Hadoop cluster. Při spuštění aktivity pro zpracování dat, stane se toto:When the activity runs to process data, here is what happens:

  1. Pro vás just-in-time zpracování řezu se automaticky vytvoří cluster HDInsight Hadoop.An HDInsight Hadoop cluster is automatically created for you just-in-time to process the slice.

  2. Vstupní data zpracovává spouští skript HiveQL v clusteru.The input data is processed by running a HiveQL script on the cluster. V tomto kurzu se skript HiveQL spojená s aktivitou hivu provede následující akce:In this tutorial, the HiveQL script associated with the hive activity performs the following actions:

    • Používá existující tabulku (hivesampletable) k vytvoření další tabulky HiveSampleOut.Uses the existing table (hivesampletable) to create another table HiveSampleOut.
    • Naplní HiveSampleOut tabulky obsahující pouze konkrétní sloupce z původní hivesampletable.Populates the HiveSampleOut table with only specific columns from the original hivesampletable.
  3. Po dokončení zpracování a cluster nakonfigurovaného množství času (nastavení timeToLive) nečinnosti se odstraní cluster HDInsight Hadoop.The HDInsight Hadoop cluster is deleted after the processing is complete and the cluster is idle for the configured amount of time (timeToLive setting). Pokud další datový řez je k dispozici pro zpracování se v tuto chvíli nečinná timeToLive, stejný cluster se používá ke zpracování řezu.If the next data slice is available for processing with in this timeToLive idle time, the same cluster is used to process the slice.

Vytvoření datové továrnyCreate a data factory

  1. Přihlaste se k webu Azure Portal.Sign in to the Azure portal.

  2. V nabídce vlevo přejděte na + vytvořit prostředek > Analytics > služby Data Factory.From the left menu, navigate to + Create a resource > Analytics > Data Factory.

    Na portálu Azure Data FactoryAzure Data Factory on the portal

  3. Zadejte nebo vyberte následující hodnoty nová datová továrna dlaždice:Enter or select the following values for the New data factory tile:

    VlastnostProperty HodnotaValue
    NázevName Zadejte název datové továrny.Enter a name for the data factory. Tento název musí být globálně jedinečný.This name must be globally unique.
    PředplatnéSubscription Vyberte své předplatné Azure.Select your Azure subscription.
    Skupina prostředkůResource group Vyberte použít existující a pak vyberte skupinu prostředků, kterou jste vytvořili, pomocí Powershellového skriptu.Select Use existing and then select the resource group you created using the PowerShell script.
    VersionVersion Ponechte V2.Leave at V2.
    LocationLocation Umístění se nastaví automaticky do umístění, které jste zadali při vytváření skupiny prostředků dříve.The location is automatically set to the location you specified while creating the resource group earlier. Pro účely tohoto kurzu, umístění se nastaví USA – východ.For this tutorial, the location is set to East US.

    Vytvoření datové továrny Azure pomocí webu Azure portalCreate Azure Data Factory using Azure portal

  4. Vyberte Vytvořit.Select Create. Vytváří se objekt pro vytváření dat může trvat mezi 2 až 4 minuty.Creating a data factory might take anywhere between 2 to 4 minutes.

  5. Po vytvoření datové továrny, vám přijde nasazení bylo úspěšné oznámení s přejít k prostředku tlačítko.Once the data factory is created, you will receive a Deployment succeeded notification with a Go to resource button. Vyberte přejít k prostředku otevřete výchozího zobrazení datové továrny.Select Go to resource to open the Data Factory default view.

  6. Vyberte vytvořit a monitorovat ke spuštění Azure Data Factory pro vytváření a monitorování portálu.Select Author & Monitor to launch the Azure Data Factory authoring and monitoring portal.

    Přehled služby Azure Data FactoryAzure Data Factory overview

Vytvoření propojených služebCreate linked services

V této části vytvoříte dvě propojené služby v rámci vaší datové továrně.In this section, you author two linked services within your data factory.

  • Propojená služba Azure Storage, která propojí účet služby Azure Storage s datovou továrnou.An Azure Storage linked service that links an Azure storage account to the data factory. Toto úložiště používá cluster HDInsight na vyžádání.This storage is used by the on-demand HDInsight cluster. Obsahuje také skript Hive, který běží v clusteru.It also contains the Hive script that is run on the cluster.
  • Propojená služba HDInsight na vyžádání.An on-demand HDInsight linked service. Azure Data Factory automaticky vytvoří HDInsight cluster a spustí skript Hive.Azure Data Factory automatically creates an HDInsight cluster and runs the Hive script. Až bude cluster HDInsight zadanou dobu nečinný, odstraní ho.It then deletes the HDInsight cluster after the cluster is idle for a preconfigured time.

Vytvoření propojené služby Azure StorageCreate an Azure Storage linked service

  1. V levém podokně pusťme se do práce stránky, vyberte Autor ikonu.From the left pane of the Let's get started page, select the Author icon.

    Vytvoření služby Azure Data Factory propojenéCreate an Azure Data Factory linked service

  2. Vyberte připojení z levého dolního rohu okna a pak vyberte + nová.Select Connections from the bottom-left corner of the window and then select +New.

    Vytvoření připojení v Azure Data FactoryCreate connections in Azure Data Factory

  3. V Nová propojená služba dialogu Azure Blob Storage a pak vyberte pokračovat.In the New Linked Service dialog box, select Azure Blob Storage and then select Continue.

    Propojená služba Data Factory vytvořit Azure StorageCreate Azure Storage linked service for Data Factory

  4. Zadejte následující hodnoty na propojenou službu storage:Provide the following values for the storage linked service:

    VlastnostProperty HodnotaValue
    NázevName Zadejte HDIStorageLinkedService.Enter HDIStorageLinkedService.
    Předplatné AzureAzure subscription Vyberte své předplatné z rozevíracího seznamu.Select your subscription from the drop-down list.
    Název účtu úložištěStorage account name Vyberte účet služby Azure Storage, kterou jste vytvořili jako součást skriptu prostředí PowerShell.Select the Azure Storage account you created as part of the PowerShell script.

    Pak vyberte Dokončit.Then select Finish.

    Zadejte název pro službu Azure Storage propojená službaProvide name for Azure Storage linked service

Vytvoření propojené služby HDInsight na vyžádáníCreate an on-demand HDInsight linked service

  1. Znovu vyberte tlačítko + Nová a vytvořte další propojenou službu.Select the + New button again to create another linked service.

  2. V Nová propojená služba okna, vyberte Compute kartu.In the New Linked Service window, select the Compute tab.

  3. Vyberte Azure HDInsighta pak vyberte pokračovat.Select Azure HDInsight, and then select Continue.

    HDInsight vytvořit propojenou službu Azure Data FactoryCreate HDInsight linked service for Azure Data Factory

  4. V Nová propojená služba okno, zadejte následující hodnoty a ponechte zbývající jako výchozí:In the New Linked Service window, enter the following values and leave the rest as default:

    VlastnostProperty HodnotaValue
    NázevName Zadejte HDinisghtLinkedService.Enter HDinisghtLinkedService.
    TypeType Vyberte HDInsight na vyžádání.Select On-demand HDInsight.
    Propojená služba Azure StorageAzure Storage Linked Service Vyberte HDIStorageLinkedService.Select HDIStorageLinkedService.
    Typ clusteruCluster type Vyberte hadoopSelect hadoop
    Hodnota TTL (Time to Live)Time to live Zadejte dobu trvání, pro které chcete cluster HDInsight bude k dispozici před jejich odstraněním automaticky.Provide the duration for which you want the HDInsight cluster to be available before being automatically deleted.
    ID instančního objektuService principal ID Zadejte ID aplikace pro objekt služby Azure Active Directory, kterou jste vytvořili jako součást požadavků.Provide the application ID of the Azure Active Directory service principal you created as part of the prerequisites.
    Klíč instančního objektuService principal key Zadejte ověřovací klíč instančního objektu služby Azure Active Directory.Provide the authentication key for the Azure Active Directory service principal.
    Předpona názvu clusteruCluster name prefix Zadejte hodnotu, která bude mu předcházet text pro všechny typy clusteru, které jsou vytvořeny pomocí služby data factory.Provide a value that will be prefixed to all the cluster types that are created by the data factory.
    PředplatnéSubscription Vyberte své předplatné z rozevíracího seznamu.Select your subscription from the drop-down list.
    Výběr skupiny prostředkůSelect resource group Vyberte skupinu prostředků, kterou jste vytvořili jako součást skriptu prostředí PowerShell, který jste použili dříve.Select the resource group you created as part of the PowerShell script you used earlier.
    Zvolte oblastSelect region Z rozevíracího seznamu vyberte oblast.Select a region from the drop-down list.
    Uživatelské jméno SSH clusteru/typu operačního systémuOS type/Cluster SSH user name Zadejte uživatelské jméno SSH, běžně sshuser.Enter an SSH user name, commonly sshuser.
    Heslo SSH operačního systému clusteru/typuOS type/Cluster SSH password Zadejte heslo pro uživatele SSHProvide a password for the SSH user
    Typ operačního systému/uživatelské jméno clusteruOS type/Cluster user name Zadejte uživatelské jméno clusteru běžně admin.Enter a cluster user name, commonly admin.
    Heslo uživatele operačního systému clusteru/typuOS type/Cluster user password Zadejte heslo pro uživatele clusteru.Provide a password for the cluster user.

    Pak vyberte Dokončit.Then select Finish.

    Zadejte hodnoty pro HDInsight propojená službaProvide values for HDInsight linked service

Vytvoření kanáluCreate a pipeline

  1. Vyberte tlačítko + (plus) a pak vyberte Kanál.Select the + (plus) button, and then select Pipeline.

    Vytvoření kanálu ve službě Azure Data FactoryCreate a pipeline in Azure Data Factory

  2. V aktivity sady nástrojů, rozbalte HDInsighta přetáhněte ji Hive aktivity na plochu návrháře kanálu.In the Activities toolbox, expand HDInsight, and drag the Hive activity to the pipeline designer surface. V Obecné kartu, zadejte název aktivity.In the General tab, provide a name for the activity.

    Přidání aktivit do kanálu služby Data FactoryAdd activities to Data Factory pipeline

  3. Ujistěte se, že je vybraná aktivita Hive, vyberte Cluster Hdinsight kartu a od propojená služba HDInsight rozevíracího seznamu vyberte propojenou službu jste vytvořili dříve, HDinightLinkedService, pro HDInsight.Make sure you have the Hive activity selected, select the HDI Cluster tab, and from the HDInsight Linked Service drop-down list, select the linked service you created earlier, HDinightLinkedService, for HDInsight.

    Zadejte podrobnosti o clusteru HDInsight pro kanálProvide HDInsight cluster details for the pipeline

  4. Vyberte skript kartě a proveďte následující kroky:Select the Script tab and complete the following steps:

    1. Pro propojenou službu skriptvyberte HDIStorageLinkedService z rozevíracího seznamu.For Script Linked Service, select HDIStorageLinkedService from the drop-down list. Tato hodnota je na propojenou službu storage, kterou jste vytvořili dříve.This value is the storage linked service you created earlier.

    2. Pro cesta k souboruvyberte procházet úložiště a přejděte do umístění, kde je k dispozici ukázkový skript Hive.For File Path, select Browse Storage and navigate to the location where the sample Hive script is available. Pokud jste dříve spustili skript prostředí PowerShell, toto umístění by mělo být adfgetstarted/hivescripts/hivescript.hql.If you ran the PowerShell script earlier, this location should be adfgetstarted/hivescripts/hivescript.hql.

      Zadejte podrobnosti skriptu Hive pro kanálProvide Hive script details for the pipeline

    3. V části Upřesnit > parametryvyberte automaticky vyplnit ze skriptu.Under Advanced > Parameters, select Auto-fill from script. Tato možnost hledá žádné parametry ve skriptu Hive, které vyžadují hodnoty v době běhu.This option looks for any parameters in the Hive script that require values at runtime. Skript, který používáte (hivescript.hql) má výstup parametru.The script you use (hivescript.hql) has an Output parameter. Zadejte hodnotu ve formátu wasb://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ tak, aby odkazovala na existující složku ve službě Azure Storage.Provide the value in the format wasb://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ to point to an existing folder on your Azure Storage. V této cestě se rozlišují velká a malá písmena.The path is case-sensitive. Toto je cesta, kam se má uložit výstup skriptu.This is the path where the output of the script will be stored.

      Zadejte parametry skriptu HiveProvide parameters for the Hive script

  5. Vyberte ověřit ověření kanálu.Select Validate to validate the pipeline. Výběrem tlačítka >> (šipka doprava) zavřete okno ověřování.Select the >> (right arrow) button to close the validation window.

    Ověření kanálu Azure Data FactoryValidate the Azure Data Factory pipeline

  6. Nakonec vyberte Publikovat vše publikovat artefakty do služby Azure Data Factory.Finally, select Publish All to publish the artifacts to Azure Data Factory.

    Publikování kanálu Azure Data FactoryPublish the Azure Data Factory pipeline

Aktivace kanáluTrigger a pipeline

  1. Vyberte z panelu nástrojů na plochu návrháře aktivační událost přidat > aktivovat.From the toolbar on the designer surface, select Add trigger > Trigger Now.

    Aktivace kanálu Azure Data FactoryTrigger the Azure Data Factory pipeline

  2. Vyberte Dokončit v rozbalovací postranní panel.Select Finish in the pop-up side bar.

Monitorování kanáluMonitor a pipeline

  1. Vlevo přepněte na kartu Monitorování.Switch to the Monitor tab on the left. V seznamu Spuštění kanálu se zobrazí spuštění kanálu.You see a pipeline run in the Pipeline Runs list. Všimněte si, že stav pro běh stav sloupce.Notice the status of the run under the Status column.

    Monitorování kanálu Azure Data FactoryMonitor the Azure Data Factory pipeline

  2. Seznam můžete aktualizovat kliknutím na Aktualizovat.Select Refresh to refresh the status.

  3. Můžete také vybrat zobrazit spuštění aktivit ikonu zobrazíte spuštění aktivit související se kanálu.You can also select the View Activity Runs icon to see the activity run associated with the pipeline. Na snímku obrazovky níže uvidíte jenom jednu aktivitu spustit, protože pouze jednu aktivitu v kanálu, který jste vytvořili.In the screenshot below, you see only one activity run since there is only one activity in the pipeline you created. Pokud chcete přepnout zpět na předchozí zobrazení, vyberte kanály horní části stránky.To switch back to the previous view, select Pipelines towards the top of the page.

    Monitorujte aktivity kanálů Azure Data FactoryMonitor the Azure Data Factory pipeline activity

Ověření výstupuVerify the output

  1. K ověření výstupu na webu Azure Portal přejděte do účtu úložiště, který jste použili pro účely tohoto kurzu.To verify the output, in the Azure portal navigate to the storage account that you used for this tutorial. Měli byste vidět následující složky nebo kontejnerů:You should see the following folders or containers:

    • Zobrazí adfgerstarted/outputfolder , který obsahuje výstup skriptu Hive, který byl spuštěn jako součást kanálu.You see an adfgerstarted/outputfolder that contains the output of the Hive script that was run as part of the pipeline.

    • Zobrazí adfhdidatafactory -<propojené service-name >-<časové razítko > kontejneru.You see an adfhdidatafactory-<linked-service-name>-<timestamp> container. Tento kontejner je výchozí umístění úložiště pro cluster HDInsight, který byl vytvořen jako součást spuštění kanálu.This container is the default storage location of the HDInsight cluster that was created as part of the pipeline run.

    • Zobrazí adfjobs protokoly kontejneru, který se má úloha služby Azure Data Factory.You see an adfjobs container that has the Azure Data Factory job logs.

      Ověření výstupu kanálu Azure Data FactoryVerify the Azure Data Factory pipeline output

Vyčistěte kurzClean up the tutorial

Při vytváření clusteru HDInsight na vyžádání není potřeba explicitně odstranění clusteru HDInsight.With the on-demand HDInsight cluster creation, you do not need to explicitly delete the HDInsight cluster. Při odstranění clusteru, v závislosti na konfiguraci, kterou jste zadali při vytváření kanálu.The cluster is deleted based on the configuration you provided while creating the pipeline. Ale i po odstranění clusteru účty úložiště přidružené ke clusteru i nadále existovat.However, even after the cluster is deleted, the storage accounts associated with the cluster continue to exist. Toto chování je záměrné, tak, aby vaše data můžete ponechat beze změny.This behavior is by design so that you can keep your data intact. Pokud nechcete zachovat data, však může odstranit účet úložiště, který jste vytvořili.However, if you do not want to persist the data, you may delete the storage account you created.

Alternativně můžete odstranit celou skupinu prostředků, kterou jste vytvořili pro účely tohoto kurzu.Alternatively, you can delete the entire resource group that you created for this tutorial. Tím se odstraní účet úložiště a Azure Data Factory, který jste vytvořili.This deletes the storage account and the Azure Data Factory that you created.

Odstranit skupinu prostředkůDelete the resource group

  1. Přihlaste se k portálu Azure Portal.Sign on to the Azure portal.

  2. Vyberte skupiny prostředků v levém podokně.Select Resource groups on the left pane.

  3. Vyberte název skupiny prostředků, kterou jste vytvořili ve vašem skriptu prostředí PowerShell.Select the resource group name you created in your PowerShell script. Pokud máte příliš mnoho skupin prostředků, které jsou uvedeny, použijte filtr.Use the filter if you have too many resource groups listed. Otevře se skupiny prostředků.It opens the resource group.

  4. Na prostředky dlaždice, musí mít výchozí účet úložiště a data factory, uvedeny, dokud skupinu prostředků sdílet s jinými projekty.On the Resources tile, you shall have the default storage account and the data factory listed unless you share the resource group with other projects.

  5. Vyberte Odstranit skupinu prostředků.Select Delete resource group. Tím odstraníte účet úložiště a data uložená v účtu úložiště.Doing so deletes the storage account and the data stored in the storage account.

    Odstranit skupinu prostředkůDelete resource group

  6. Zadejte název skupiny prostředků pro potvrzení odstranění a pak vyberte odstranit.Enter the resource group name to confirm deletion, and then select Delete.

Další postupNext steps

V tomto článku jste zjistili, jak pomocí Azure Data Factory k vytvoření clusteru HDInsight na vyžádání a spusťte Apache Hive úlohy.In this article, you learned how to use Azure Data Factory to create on-demand HDInsight cluster and run Apache Hive jobs. Přejděte k dalším článku se naučíte, jak vytvářet clustery HDInsight s vlastní konfigurací.Advance to the next article to learn how to create HDInsight clusters with custom configuration.