Kurz: Vytvoření clusterů Apache Hadoop na vyžádání v HDInsight pomocí Azure Data FactoryTutorial: Create on-demand Apache Hadoop clusters in HDInsight using Azure Data Factory

V tomto kurzu se naučíte, jak vytvořit cluster Apache Hadoop na vyžádání v Azure HDInsight pomocí Azure Data Factory.In this tutorial, you learn how to create a Apache Hadoop cluster, on demand, in Azure HDInsight using Azure Data Factory. Pak pomocí datových kanálů v Azure Data Factory spouštíte úlohy podregistru a odstraníte cluster.You then use data pipelines in Azure Data Factory to run Hive jobs and delete the cluster. Po skončení tohoto kurzu se naučíte zprovoznění úlohy s velkým objemem dat, kde se spouští vytvoření clusteru, spuštění úloh a odstranění clusteru podle plánu.By the end of this tutorial, you learn how to operationalize a big data job run where cluster creation, job run, and cluster deletion are performed on a schedule.

Tento kurz se zabývá následujícími úkony:This tutorial covers the following tasks:

  • Vytvoření účtu úložiště AzureCreate an Azure storage account
  • Vysvětlení aktivity Azure Data FactoryUnderstand Azure Data Factory activity
  • Vytvoření datové továrny pomocí Azure PortalCreate a data factory using Azure portal
  • Vytvoření propojených služebCreate linked services
  • Vytvoření kanáluCreate a pipeline
  • Aktivace kanáluTrigger a pipeline
  • Monitorování kanáluMonitor a pipeline
  • Ověření výstupuVerify the output

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.If you don't have an Azure subscription, create a free account before you begin.

PožadavkyPrerequisites

  • Prostředí PowerShell AZ Module installed.The PowerShell Az Module installed.

  • Objekt Azure Active Directory služby.An Azure Active Directory service principal. Po vytvoření instančního objektu se ujistěte, že jste načetli ID aplikace a ověřovací klíč podle pokynů v odkazovaném článku.Once you have created the service principal, be sure to retrieve the application ID and authentication key using the instructions in the linked article. Tyto hodnoty budete potřebovat později v tomto kurzu.You need these values later in this tutorial. Také se ujistěte, že instanční objekt je členem role přispěvatele předplatného nebo skupiny prostředků, ve které se cluster vytváří.Also, make sure the service principal is a member of the Contributor role of the subscription or the resource group in which the cluster is created. Pokyny k načtení požadovaných hodnot a přiřazení správných rolí najdete v tématu vytvoření Azure Active Directory instančního objektu.For instructions to retrieve the required values and assign the right roles, see Create an Azure Active Directory service principal.

Vytvoření předběžných objektů AzureCreate preliminary Azure objects

V této části vytvoříte různé objekty, které se budou používat pro cluster HDInsight, který vytvoříte na vyžádání.In this section, you create various objects that will be used for the HDInsight cluster you create on-demand. Vytvořený účet úložiště bude obsahovat vzorový skript HiveQL (partitionweblogs.hql), který použijete k simulaci ukázkové Apache Hive úlohy, která běží na clusteru.The created storage account will contain the sample HiveQL script (partitionweblogs.hql) that you use to simulate a sample Apache Hive job that runs on the cluster.

V této části se používá skript Azure PowerShell k vytvoření účtu úložiště a zkopírování požadovaných souborů v rámci účtu úložiště.This section uses an Azure PowerShell script to create the storage account and copy over the required files within the storage account. Ukázkový skript Azure PowerShell v této části provádí následující úlohy:The Azure PowerShell sample script in this section performs the following tasks:

  1. Přihlaste se k Azure.Signs in to Azure.
  2. Vytvoří skupinu prostředků Azure.Creates an Azure resource group.
  3. Vytvoří účet služby Azure Storage.Creates an Azure Storage account.
  4. Vytvoří v účtu úložiště kontejner objektů BLOB.Creates a Blob container in the storage account
  5. Zkopíruje vzorový skript HiveQL (partitionweblogs. HQL) do kontejneru objektů BLOB.Copies the sample HiveQL script (partitionweblogs.hql) the Blob container. Skript je k dispozici https://hditutorialdata.blob.core.windows.net/adfhiveactivity/script/partitionweblogs.hqlna adrese.The script is available at https://hditutorialdata.blob.core.windows.net/adfhiveactivity/script/partitionweblogs.hql. Ukázkový skript je již k dispozici v jiném veřejném kontejneru objektů BLOB.The sample script is already available in another public Blob container. Níže uvedený skript PowerShellu vytvoří kopii těchto souborů na účet Azure Storage, který vytvoří.The PowerShell script below makes a copy of these files into the Azure Storage account it creates.

Varování

Druh BlobStorage účtu úložiště se nedá použít pro clustery HDInsight.Storage account kind BlobStorage cannot be used for HDInsight clusters.

Pokud chcete vytvořit účet úložiště a zkopírovat soubory pomocí Azure PowerShell:To create a storage account and copy the files using Azure PowerShell:

Důležité

Zadejte názvy pro skupinu prostředků Azure a účet úložiště Azure, který bude skript vytvořit.Specify names for the Azure resource group and the Azure storage account that will be created by the script. Zapište název skupiny prostředků, název účtu úložištěa klíč účtu úložiště , který je vydaný skriptem.Write down resource group name, storage account name, and storage account key outputted by the script. Budete je potřebovat v další části.You need them in the next section.

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
$sub = Get-AzSubscription -ErrorAction SilentlyContinue
if(-not($sub))
{
    Connect-AzAccount
}
#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzResourceGroup `
    -Name $resourceGroupName `
    -Location $location

New-AzStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -Kind StorageV2 `
    -Location $location `
    -SkuName Standard_LRS `
    -EnableHttpsTrafficOnly 1

$destStorageAccountKey = (Get-AzStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous

$destContext = New-AzStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzStorageContainer `
    -Name $destContainerName `
    -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName

$blobs|Start-AzStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzStorageBlob `
    -Context $destContext `
    -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

Ověření vytvoření účtu úložištěTo verify the storage account creation

  1. Přihlaste se k portálu Azure Portal.Sign on to the Azure portal.
  2. V levém podokně vyberte skupiny prostředků .Select Resource groups on the left pane.
  3. Vyberte název skupiny prostředků, který jste vytvořili ve svém skriptu PowerShellu.Select the resource group name you created in your PowerShell script. Pokud máte v seznamu příliš mnoho skupin prostředků, použijte filtr.Use the filter if you have too many resource groups listed.
  4. Na dlaždici prostředky uvidíte jeden prostředek uvedený v seznamu, pokud nesdílíte skupinu prostředků s jinými projekty.On the Resources tile, you see one resource listed unless you share the resource group with other projects. Tento prostředek je účet úložiště s názvem, který jste zadali dříve.That resource is the storage account with the name you specified earlier. Vyberte název účtu úložiště.Select the storage account name.
  5. Vyberte dlaždice objektů BLOB .Select the Blobs tiles.
  6. Vyberte kontejner adfgetstarted .Select the adfgetstarted container. Zobrazí se složka s názvem hivescripts.You see a folder called hivescripts.
  7. Otevřete složku a ujistěte se, že obsahuje ukázkový soubor skriptu partitionweblogs. HQL.Open the folder and make sure it contains the sample script file, partitionweblogs.hql.

Pochopení aktivity Azure Data FactoryUnderstand the Azure Data Factory activity

Azure Data Factory orchestruje a automatizuje přesun a transformaci dat.Azure Data Factory orchestrates and automates the movement and transformation of data. Azure Data Factory může vytvořit cluster HDInsight Hadoop za běhu ke zpracování vstupního datového řezu a odstranit cluster po dokončení zpracování.Azure Data Factory can create an HDInsight Hadoop cluster just-in-time to process an input data slice and delete the cluster when the processing is complete.

V Azure Data Factory Datová továrna může mít jeden nebo více datových kanálů.In Azure Data Factory, a data factory can have one or more data pipelines. Datový kanál obsahuje jednu nebo více aktivit.A data pipeline has one or more activities. Existují dva typy aktivit:There are two types of activities:

  • Aktivity přesunu dat – k přesunu dat ze zdrojového úložiště dat do cílového úložiště dat slouží aktivity přesunu dat.Data Movement Activities - You use data movement activities to move data from a source data store to a destination data store.
  • Aktivity transformace dat.Data Transformation Activities. Aktivity transformace dat slouží k transformaci nebo zpracování dat.You use data transformation activities to transform/process data. Aktivita podregistru HDInsight je jednou z aktivit transformace, které podporuje Data Factory.HDInsight Hive Activity is one of the transformation activities supported by Data Factory. V tomto kurzu použijete aktivitu transformace podregistru.You use the Hive transformation activity in this tutorial.

V tomto článku nakonfigurujete aktivitu podregistru tak, aby se vytvořil cluster Hadoop služby HDInsight na vyžádání.In this article, you configure the Hive activity to create an on-demand HDInsight Hadoop cluster. V případě, že se aktivita spouští ke zpracování dat, je zde Tato akce:When the activity runs to process data, here is what happens:

  1. Pro zpracování řezu se automaticky vytvoří cluster Hadoop An HDInsight za běhu.An HDInsight Hadoop cluster is automatically created for you just-in-time to process the slice.

  2. Vstupní data jsou zpracována spuštěním skriptu HiveQL v clusteru.The input data is processed by running a HiveQL script on the cluster. V tomto kurzu provede skript HiveQL přidružený k aktivitě podregistru tyto akce:In this tutorial, the HiveQL script associated with the hive activity performs the following actions:

    • Použije existující tabulku (hivesampletable) k vytvoření další tabulky HiveSampleOut.Uses the existing table (hivesampletable) to create another table HiveSampleOut.
    • Naplní tabulku HiveSampleOut o pouze konkrétní sloupce z původních hivesampletable.Populates the HiveSampleOut table with only specific columns from the original hivesampletable.
  3. Po dokončení zpracování se cluster HDInsight Hadoop odstraní a cluster se po nakonfigurované době nečinný (nastavení timeToLive).The HDInsight Hadoop cluster is deleted after the processing is complete and the cluster is idle for the configured amount of time (timeToLive setting). Pokud je k dispozici další datový řez pro zpracování v této timeToLive době nečinnosti, použije se stejný cluster ke zpracování řezu.If the next data slice is available for processing with in this timeToLive idle time, the same cluster is used to process the slice.

Vytvoření datové továrnyCreate a data factory

  1. Přihlaste se k webu Azure Portal.Sign in to the Azure portal.

  2. V nabídce vlevo přejděte na + vytvořit > Data Factoryproanalýzu > prostředků.From the left menu, navigate to + Create a resource > Analytics > Data Factory.

    Azure Data Factory na portáluAzure Data Factory on the portal

  3. Zadejte nebo vyberte následující hodnoty pro novou dlaždici objektu pro vytváření dat :Enter or select the following values for the New data factory tile:

    VlastnostProperty HodnotaValue
    NameName Zadejte název objektu pro vytváření dat.Enter a name for the data factory. Tento název musí být globálně jedinečný.This name must be globally unique.
    SubscriptionSubscription Vyberte své předplatné Azure.Select your Azure subscription.
    Resource groupResource group Vyberte použít existující a pak vyberte skupinu prostředků, kterou jste vytvořili pomocí skriptu PowerShellu.Select Use existing and then select the resource group you created using the PowerShell script.
    VersionVersion Ponechte v v2.Leave at V2.
    LocationLocation Umístění je automaticky nastaveno na umístění, které jste zadali během vytváření skupiny prostředků.The location is automatically set to the location you specified while creating the resource group earlier. Pro tento kurz je umístění nastavené na východní USA.For this tutorial, the location is set to East US.

    Vytvoření Azure Data Factory pomocí Azure PortalCreate Azure Data Factory using Azure portal

  4. Vyberte Vytvořit.Select Create. Vytváření datové továrny může trvat 2 až 4 minuty.Creating a data factory might take anywhere between 2 to 4 minutes.

  5. Po vytvoření objektu pro vytváření dat se zobrazí oznámení o úspěšném nasazení s tlačítkem Přejít na prostředek .Once the data factory is created, you will receive a Deployment succeeded notification with a Go to resource button. Vyberte Přejít k prostředku a otevřete Data Factory výchozí zobrazení.Select Go to resource to open the Data Factory default view.

  6. Vyberte vytvořit & monitorování a spusťte tak Azure Data Factory portál pro vytváření a monitorování.Select Author & Monitor to launch the Azure Data Factory authoring and monitoring portal.

    Přehled Azure Data FactoryAzure Data Factory overview

Vytvoření propojených služebCreate linked services

V této části vytvoříte ve vaší datové továrně dvě propojené služby.In this section, you author two linked services within your data factory.

  • Propojená služba Azure Storage, která propojí účet služby Azure Storage s datovou továrnou.An Azure Storage linked service that links an Azure storage account to the data factory. Toto úložiště používá cluster HDInsight na vyžádání.This storage is used by the on-demand HDInsight cluster. Obsahuje také skript pro podregistr, který je spuštěn v clusteru.It also contains the Hive script that is run on the cluster.
  • Propojená služba HDInsight na vyžádání.An on-demand HDInsight linked service. Azure Data Factory automaticky vytvoří cluster HDInsight a spustí skript pro podregistr.Azure Data Factory automatically creates an HDInsight cluster and runs the Hive script. Až bude cluster HDInsight zadanou dobu nečinný, odstraní ho.It then deletes the HDInsight cluster after the cluster is idle for a preconfigured time.

Vytvoření propojené služby Azure StorageCreate an Azure Storage linked service

  1. V levém podokně stránky Začínáme vyberte ikonu Autor .From the left pane of the Let's get started page, select the Author icon.

    Vytvoření propojené služby Azure Data FactoryCreate an Azure Data Factory linked service

  2. V levém dolním rohu okna vyberte připojení a pak vyberte + Nový.Select Connections from the bottom-left corner of the window and then select +New.

    Vytvoření připojení v Azure Data FactoryCreate connections in Azure Data Factory

  3. V dialogovém okně Nová propojená služba vyberte Azure Blob Storage a pak vyberte pokračovat.In the New Linked Service dialog box, select Azure Blob Storage and then select Continue.

    Vytvořit propojenou službu Azure Storage pro Data FactoryCreate Azure Storage linked service for Data Factory

  4. Zadejte následující hodnoty pro propojenou službu úložiště:Provide the following values for the storage linked service:

    VlastnostProperty ValueValue
    NameName Zadejte HDIStorageLinkedService.Enter HDIStorageLinkedService.
    Předplatné AzureAzure subscription V rozevíracím seznamu vyberte své předplatné.Select your subscription from the drop-down list.
    Název účtu úložištěStorage account name Vyberte účet Azure Storage, který jste vytvořili jako součást skriptu prostředí PowerShell.Select the Azure Storage account you created as part of the PowerShell script.

    Pak vyberte Dokončit.Then select Finish.

    ![Zadejte název pro propojenou službu Azure Storage] . (./media/hdinsight-hadoop-create-linux-clusters-adf/hdinsight-data-factory-storage-linked-service-details.png "Zadejte název pro propojenou službu Azure Storage") .Provide name for Azure Storage linked service

Vytvoření propojené služby HDInsight na vyžádáníCreate an on-demand HDInsight linked service

  1. Znovu vyberte tlačítko + Nová a vytvořte další propojenou službu.Select the + New button again to create another linked service.

  2. V okně Nová propojená služba vyberte kartu COMPUTE .In the New Linked Service window, select the Compute tab.

  3. Vyberte Azure HDInsighta pak vyberte pokračovat.Select Azure HDInsight, and then select Continue.

    Vytvořit propojenou službu HDInsight pro Azure Data FactoryCreate HDInsight linked service for Azure Data Factory

  4. V okně Nová propojená služba zadejte následující hodnoty a nechte zbývající jako výchozí:In the New Linked Service window, enter the following values and leave the rest as default:

    VlastnostProperty ValueValue
    NameName Zadejte HDInsightLinkedService.Enter HDInsightLinkedService.
    typeType Vyberte HDInsight na vyžádání.Select On-demand HDInsight.
    Propojená služba Azure StorageAzure Storage Linked Service Vyberte HDIStorageLinkedService.Select HDIStorageLinkedService.
    Typ clusteruCluster type Vyberte HadoopSelect hadoop
    Hodnota TTL (Time to Live)Time to live Zadejte dobu, po kterou má být cluster HDInsight k dispozici, než se automaticky odstraní.Provide the duration for which you want the HDInsight cluster to be available before being automatically deleted.
    ID instančního objektuService principal ID Zadejte ID aplikace Azure Active Directory instančního objektu, který jste vytvořili jako součást požadavků.Provide the application ID of the Azure Active Directory service principal you created as part of the prerequisites.
    Klíč objektu službyService principal key Zadejte ověřovací klíč pro objekt Azure Active Directory služby.Provide the authentication key for the Azure Active Directory service principal.
    Předpona názvu clusteruCluster name prefix Zadejte hodnotu, která bude obsahovat předponu pro všechny typy clusterů, které jsou vytvořeny datovou továrnou.Provide a value that will be prefixed to all the cluster types that are created by the data factory.
    SubscriptionSubscription V rozevíracím seznamu vyberte své předplatné.Select your subscription from the drop-down list.
    Vybrat skupinu prostředkůSelect resource group Vyberte skupinu prostředků, kterou jste vytvořili jako součást skriptu prostředí PowerShell, který jste použili dříve.Select the resource group you created as part of the PowerShell script you used earlier.
    Vybrat oblastSelect region V rozevíracím seznamu vyberte oblast.Select a region from the drop-down list.
    Typ operačního systému/uživatelské jméno SSH clusteruOS type/Cluster SSH user name Zadejte uživatelské jméno SSH, obvykle sshuser.Enter an SSH user name, commonly sshuser.
    Typ operačního systému/heslo SSH clusteruOS type/Cluster SSH password Zadejte heslo pro uživatele SSH.Provide a password for the SSH user
    Typ operačního systému/uživatelské jméno clusteruOS type/Cluster user name Zadejte uživatelské jméno clusteru, obvykle admin.Enter a cluster user name, commonly admin.
    Typ operačního systému/heslo uživatele clusteruOS type/Cluster user password Zadejte heslo pro uživatele clusteru.Provide a password for the cluster user.

    Pak vyberte Dokončit.Then select Finish.

    ![Zadejte hodnoty pro propojenou službu HDInsight] . (./media/hdinsight-hadoop-create-linux-clusters-adf/hdinsight-data-factory-linked-service-details.png "Zadejte hodnoty pro propojenou službu HDInsight") .Provide values for HDInsight linked service

Vytvoření kanáluCreate a pipeline

  1. Vyberte tlačítko + (plus) a pak vyberte Kanál.Select the + (plus) button, and then select Pipeline.

    Vytvoření kanálu v Azure Data FactoryCreate a pipeline in Azure Data Factory

  2. Na panelu nástrojů aktivity rozbalte HDInsighta přetáhněte aktivitu podregistru na plochu návrháře kanálu.In the Activities toolbox, expand HDInsight, and drag the Hive activity to the pipeline designer surface. Na kartě Obecné zadejte název aktivity.In the General tab, provide a name for the activity.

    Přidání aktivit do kanálu Data FactoryAdd activities to Data Factory pipeline

  3. Ujistěte se, že máte vybranou aktivitu podregistr, vyberte kartu cluster HDI a v rozevíracím seznamu propojená služba HDInsight vyberte propojenou službu, kterou jste vytvořili dříve, HDinightLinkedService, pro HDInsight.Make sure you have the Hive activity selected, select the HDI Cluster tab, and from the HDInsight Linked Service drop-down list, select the linked service you created earlier, HDinightLinkedService, for HDInsight.

    ![Zadejte podrobnosti o clusteru HDInsight pro kanál] . (./media/hdinsight-hadoop-create-linux-clusters-adf/hdinsight-hive-activity-select-hdinsight-linked-service.png "Zadejte podrobnosti o clusteru HDInsight pro kanál") .Provide HDInsight cluster details for the pipeline

  4. Vyberte kartu skript a proveďte následující kroky:Select the Script tab and complete the following steps:

    1. V poli pro propojenou službu skriptuvyberte v rozevíracím seznamu možnost HDIStorageLinkedService .For Script Linked Service, select HDIStorageLinkedService from the drop-down list. Tato hodnota je propojená služba úložiště, kterou jste vytvořili dříve.This value is the storage linked service you created earlier.

    2. V poli cesta k souboruvyberte Procházet úložiště a přejděte do umístění, kde je k dispozici ukázkový skript podregistru.For File Path, select Browse Storage and navigate to the location where the sample Hive script is available. Pokud jste dříve spustili skript prostředí PowerShell, toto umístění by mělo adfgetstarted/hivescripts/partitionweblogs.hqlbýt.If you ran the PowerShell script earlier, this location should be adfgetstarted/hivescripts/partitionweblogs.hql.

      Zadání podrobností o skriptu podregistru pro kanálProvide Hive script details for the pipeline

    3. V části Upřesnit > parametryvyberte možnost automaticky vyplnit ze skriptu.Under Advanced > Parameters, select Auto-fill from script. Tato možnost vyhledá všechny parametry v rámci skriptu podregistru, které vyžadují hodnoty za běhu.This option looks for any parameters in the Hive script that require values at runtime. Skript, který použijete (partitionweblogs. HQL), má výstupní parametr.The script you use (partitionweblogs.hql) has an Output parameter. Zadejte hodnotu ve formátu wasbs://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ tak, aby odkazovala na existující složku v Azure Storage.Provide the value in the format wasbs://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ to point to an existing folder on your Azure Storage. V této cestě se rozlišují velká a malá písmena.The path is case-sensitive. Toto je cesta, kde bude uložen výstup skriptu.This is the path where the output of the script will be stored. wasbs Schéma je nezbytné, protože účty úložiště mají nyní povolený zabezpečený přenos, který je ve výchozím nastavení povolen.The wasbs schema is necessary because storage accounts now have secure transfer required enabled by default.

      ![Zadejte parametry pro skript podregistr] . (./media/hdinsight-hadoop-create-linux-clusters-adf/hdinsight-data-factory-provide-script-parameters.png "Zadejte parametry pro skript podregistr") .Provide parameters for the Hive script

  5. Pro ověření kanálu vyberte ověřit .Select Validate to validate the pipeline. Výběrem tlačítka >> (šipka doprava) zavřete okno ověřování.Select the >> (right arrow) button to close the validation window.

    Ověření kanálu Azure Data FactoryValidate the Azure Data Factory pipeline

  6. Nakonec vyberte publikovat vše pro publikování artefaktů do Azure Data Factory.Finally, select Publish All to publish the artifacts to Azure Data Factory.

    Publikování kanálu Azure Data FactoryPublish the Azure Data Factory pipeline

Aktivace kanáluTrigger a pipeline

  1. Z panelu nástrojů na návrhové ploše vyberte Přidat > aktivační událost nyní.From the toolbar on the designer surface, select Add trigger > Trigger Now.

    Aktivace kanálu Azure Data FactoryTrigger the Azure Data Factory pipeline

  2. Na postranním panelu klikněte na Dokončit .Select Finish in the pop-up side bar.

Monitorování kanáluMonitor a pipeline

  1. Vlevo přepněte na kartu Monitorování.Switch to the Monitor tab on the left. V seznamu Spuštění kanálu se zobrazí spuštění kanálu.You see a pipeline run in the Pipeline Runs list. Všimněte si stavu běhu ve sloupci stav .Notice the status of the run under the Status column.

    Monitorování kanálu Azure Data FactoryMonitor the Azure Data Factory pipeline

  2. Seznam můžete aktualizovat kliknutím na Aktualizovat.Select Refresh to refresh the status.

  3. Můžete také vybrat ikonu Zobrazit spuštění aktivit a zobrazit tak spuštění aktivit spojené s tímto kanálem.You can also select the View Activity Runs icon to see the activity run associated with the pipeline. Na následujícím snímku obrazovky vidíte jenom jednu spuštěnou aktivitu, protože kanál, který jste vytvořili, je jenom jedna aktivita.In the screenshot below, you see only one activity run since there is only one activity in the pipeline you created. Chcete-li přejít zpět k předchozímu zobrazení, vyberte kanály v horní části stránky.To switch back to the previous view, select Pipelines towards the top of the page.

    Monitorování aktivity Azure Data Factoryového kanáluMonitor the Azure Data Factory pipeline activity

Ověření výstupuVerify the output

  1. Výstup ověříte tak, že v Azure Portal přejdete do účtu úložiště, který jste použili v tomto kurzu.To verify the output, in the Azure portal navigate to the storage account that you used for this tutorial. Měli byste vidět následující složky nebo kontejnery:You should see the following folders or containers:

    • Zobrazí se adfgerstarted/OutputFolder obsahující výstup skriptu podregistru, který byl spuštěn jako součást kanálu.You see an adfgerstarted/outputfolder that contains the output of the Hive script that was run as part of the pipeline.

    • Zobrazí se kontejner > časového<razítka >-<adfhdidatafactory-Link-Service-Name .You see an adfhdidatafactory-<linked-service-name>-<timestamp> container. Tento kontejner je výchozím umístěním úložiště clusteru HDInsight, který byl vytvořen jako součást spuštění kanálu.This container is the default storage location of the HDInsight cluster that was created as part of the pipeline run.

    • Zobrazí se kontejner adfjobs , který obsahuje protokoly úloh Azure Data Factory.You see an adfjobs container that has the Azure Data Factory job logs.

      Ověření výstupu kanálu Azure Data FactoryVerify the Azure Data Factory pipeline output

Vyčištění prostředkůClean up resources

Při vytváření clusteru HDInsight na vyžádání nemusíte cluster HDInsight explicitně odstraňovat.With the on-demand HDInsight cluster creation, you do not need to explicitly delete the HDInsight cluster. Cluster se odstraní na základě konfigurace, kterou jste zadali při vytváření kanálu.The cluster is deleted based on the configuration you provided while creating the pipeline. I když se cluster odstraní, pořád existují účty úložiště přidružené ke clusteru.However, even after the cluster is deleted, the storage accounts associated with the cluster continue to exist. Toto chování je záměrné, takže můžete uchovávat data beze změny.This behavior is by design so that you can keep your data intact. Pokud ale data nechcete uchovávat, můžete odstranit účet úložiště, který jste vytvořili.However, if you do not want to persist the data, you may delete the storage account you created.

Případně můžete odstranit celou skupinu prostředků, kterou jste pro tento kurz vytvořili.Alternatively, you can delete the entire resource group that you created for this tutorial. Tím se odstraní účet úložiště a Azure Data Factory, který jste vytvořili.This deletes the storage account and the Azure Data Factory that you created.

Odstranit skupinu prostředkůDelete the resource group

  1. Přihlaste se k portálu Azure Portal.Sign on to the Azure portal.

  2. V levém podokně vyberte skupiny prostředků .Select Resource groups on the left pane.

  3. Vyberte název skupiny prostředků, který jste vytvořili ve svém skriptu PowerShellu.Select the resource group name you created in your PowerShell script. Pokud máte v seznamu příliš mnoho skupin prostředků, použijte filtr.Use the filter if you have too many resource groups listed. Otevře se skupina prostředků.It opens the resource group.

  4. Na dlaždici prostředky máte k dispozici výchozí účet úložiště a datovou továrnu, pokud nesdílíte skupinu prostředků s jinými projekty.On the Resources tile, you shall have the default storage account and the data factory listed unless you share the resource group with other projects.

  5. Vyberte Odstranit skupinu prostředků.Select Delete resource group. Tím se odstraní účet úložiště a data uložená v účtu úložiště.Doing so deletes the storage account and the data stored in the storage account.

    Odstranit skupinu prostředkůDelete resource group

  6. Zadáním názvu skupiny prostředků potvrďte odstranění a pak vyberte Odstranit.Enter the resource group name to confirm deletion, and then select Delete.

Další postupNext steps

V tomto článku jste zjistili, jak pomocí Azure Data Factory vytvořit cluster HDInsight na vyžádání a spouštět úlohy Apache Hive .In this article, you learned how to use Azure Data Factory to create on-demand HDInsight cluster and run Apache Hive jobs. V dalším článku se dozvíte, jak vytvářet clustery HDInsight s vlastní konfigurací.Advance to the next article to learn how to create HDInsight clusters with custom configuration.