Tutorial: Erstellen bedarfsgesteuerter Apache Hadoop-Cluster in HDInsight mit Azure Data FactoryTutorial: Create on-demand Apache Hadoop clusters in HDInsight using Azure Data Factory

In diesem Artikel erfahren Sie, wie Sie mit Azure Data Factory einen Apache Hadoop-Cluster bei Bedarf in Azure HDInsight erstellen.In this article, you learn how to create a Apache Hadoop cluster, on demand, in Azure HDInsight using Azure Data Factory. Sie können dann Datenpipelines in Azure Data Factory verwenden, um Hive-Aufträge ausführen und den Cluster zu löschen.You then use data pipelines in Azure Data Factory to run Hive jobs and delete the cluster. Am Ende dieses Tutorials erfahren Sie, wie Sie die Ausführung eines Big Data-Auftrags operationalisieren, bei dem die Clustererstellung, Auftragsausführung und Clusterlöschung nach einem Zeitplan ausgeführt werden.By the end of this tutorial, you learn how to operationalize a big data job run where cluster creation, job run, and cluster deletion are performed on a schedule.

Dieses Tutorial enthält die folgenden Aufgaben:This tutorial covers the following tasks:

  • Erstellen eines Azure-SpeicherkontosCreate an Azure storage account
  • Verstehen von Azure Data Factory-AktivitätenUnderstand Azure Data Factory activity
  • Erstellen einer Data Factory über das Azure-PortalCreate a data factory using Azure portal
  • Erstellen von verknüpften DienstenCreate linked services
  • Erstellen einer PipelineCreate a pipeline
  • Auslösen einer PipelineTrigger a pipeline
  • Überwachen einer PipelineMonitor a pipeline
  • Überprüfen der AusgabeVerify the output

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.If you don't have an Azure subscription, create a free account before you begin.

VoraussetzungenPrerequisites

  • Das PowerShell-Az-Modul ist installiert.The PowerShell Az Module installed.

  • Ein Azure Active Directory-Dienstprinzipal.An Azure Active Directory service principal. Nachdem Sie den Dienstprinzipal erstellt haben, müssen Sie noch die Anwendungs-ID und den Authentifizierungsschlüssel mithilfe der Anweisungen im verknüpften Artikel abrufen.Once you have created the service principal, be sure to retrieve the application ID and authentication key using the instructions in the linked article. Sie benötigen sie später in diesem Tutorial.You need these values later in this tutorial. Dieser Dienstprinzipal muss außerdem Mitglied der Rolle Mitwirkender in dem Abonnement oder der Ressourcengruppe sein, in dem bzw. der der Cluster erstellt wird.Also, make sure the service principal is a member of the Contributor role of the subscription or the resource group in which the cluster is created. Anweisungen zum Abrufen der erforderlichen Werte und zum Zuweisen der richtigen Rollen finden Sie unter Erstellen eines Azure Active Directory-Dienstprinzipals.For instructions to retrieve the required values and assign the right roles, see Create an Azure Active Directory service principal.

Erstellen von vorläufigen Azure-ObjektenCreate preliminary Azure objects

In diesem Abschnitt erstellen Sie verschiedene Objekte, die für den bei Bedarf erstellten HDInsight-Cluster verwendet werden.In this section, you create various objects that will be used for the HDInsight cluster you create on-demand. Das erstellte Speicherkonto enthält das Beispielskript HiveQL (hivescript.hql), mit dem Sie einen Apache Hive-Beispielauftrag simulieren, der auf dem Cluster ausgeführt wird.The created storage account will contain the sample HiveQL script (hivescript.hql) that you use to simulate a sample Apache Hive job that runs on the cluster.

In diesem Abschnitt wird ein Azure PowerShell-Skript verwendet, um das Speicherkonto zu erstellen und die erforderlichen Dateien im Speicherkonto zu kopieren.This section uses an Azure PowerShell script to create the storage account and copy over the required files within the storage account. Das Azure PowerShell-Beispielskript in diesem Abschnitt führt die folgenden Aufgaben aus:The Azure PowerShell sample script in this section performs the following tasks:

  1. Meldet sich bei Azure an.Signs in to Azure.
  2. Erstellt eine Azure-Ressourcengruppe.Creates an Azure resource group.
  3. Erstellt ein Azure Storage-Konto.Creates an Azure Storage account.
  4. Erstellt einen Blobcontainer im SpeicherkontoCreates a Blob container in the storage account
  5. Kopiert das HiveQL-Beispielskript (hivescript.hql) in den Blobcontainer.Copies the sample HiveQL script (hivescript.hql) the Blob container. Sie finden das Skript unter https://hditutorialdata.blob.core.windows.net/adfv2hiveactivity/hivescripts/hivescript.hql.The script is available at https://hditutorialdata.blob.core.windows.net/adfv2hiveactivity/hivescripts/hivescript.hql. Das Beispielskript ist bereits in einem anderen öffentlichen Blobcontainer verfügbar.The sample script is already available in another public Blob container. Das folgende PowerShell-Skript erstellt eine Kopie dieser Dateien in dem selbst erstellten Azure Storage-Konto.The PowerShell script below makes a copy of these files into the Azure Storage account it creates.

Warnung

Speicherkonten vom Typ BlobStorage können nicht für HDInsight-Cluster verwendet werden.Storage account kind BlobStorage cannot be used for HDInsight clusters.

So erstellen Sie mithilfe von Azure PowerShell ein Speicherkonto und kopieren die DateienTo create a storage account and copy the files using Azure PowerShell:

Wichtig

Geben Sie Namen für die Azure-Ressourcengruppe und das Azure-Speicherkonto an, die anhand des Skripts erstellt werden sollen.Specify names for the Azure resource group and the Azure storage account that will be created by the script. Notieren Sie den Namen der Ressourcengruppe, den Namen des Speicherkontos und den Speicherkontoschlüssel, die vom Skript ausgegeben werden.Write down resource group name, storage account name, and storage account key outputted by the script. Sie benötigen diese Angaben im nächsten Abschnitt.You need them in the next section.

$resourceGroupName = "<Azure Resource Group Name>"
$storageAccountName = "<Azure Storage Account Name>"
$location = "East US"

$sourceStorageAccountName = "hditutorialdata"  
$sourceContainerName = "adfv2hiveactivity"

$destStorageAccountName = $storageAccountName
$destContainerName = "adfgetstarted" # don't change this value.

####################################
# Connect to Azure
####################################
#region - Connect to Azure subscription
Write-Host "`nConnecting to your Azure subscription ..." -ForegroundColor Green
$sub = Get-AzSubscription -ErrorAction SilentlyContinue
if(-not($sub))
{
    Connect-AzAccount
}
#endregion

####################################
# Create a resource group, storage, and container
####################################

#region - create Azure resources
Write-Host "`nCreating resource group, storage account and blob container ..." -ForegroundColor Green

New-AzResourceGroup `
    -Name $resourceGroupName `
    -Location $location

New-AzStorageAccount `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName `
    -Kind StorageV2 `
    -Location $location `
    -SkuName Standard_LRS `
    -EnableHttpsTrafficOnly 1

$destStorageAccountKey = (Get-AzStorageAccountKey `
    -ResourceGroupName $resourceGroupName `
    -Name $destStorageAccountName)[0].Value

$sourceContext = New-AzStorageContext `
    -StorageAccountName $sourceStorageAccountName `
    -Anonymous

$destContext = New-AzStorageContext `
    -StorageAccountName $destStorageAccountName `
    -StorageAccountKey $destStorageAccountKey

New-AzStorageContainer `
    -Name $destContainerName `
    -Context $destContext
#endregion

####################################
# Copy files
####################################
#region - copy files
Write-Host "`nCopying files ..." -ForegroundColor Green

$blobs = Get-AzStorageBlob `
    -Context $sourceContext `
    -Container $sourceContainerName

$blobs|Start-AzStorageBlobCopy `
    -DestContext $destContext `
    -DestContainer $destContainerName

Write-Host "`nCopied files ..." -ForegroundColor Green
Get-AzStorageBlob `
    -Context $destContext `
    -Container $destContainerName
#endregion

Write-host "`nYou will use the following values:" -ForegroundColor Green
write-host "`nResource group name: $resourceGroupName"
Write-host "Storage Account Name: $destStorageAccountName"
write-host "Storage Account Key: $destStorageAccountKey"

Write-host "`nScript completed" -ForegroundColor Green

So überprüfen Sie die Erstellung des SpeicherkontosTo verify the storage account creation

  1. Melden Sie sich beim Azure-Portalan.Sign on to the Azure portal.
  2. Wählen Sie im linken Bereich Ressourcengruppen aus.Select Resource groups on the left pane.
  3. Wählen Sie den Namen der Ressourcengruppe, die Sie im PowerShell-Skript erstellt haben, aus.Select the resource group name you created in your PowerShell script. Verwenden Sie den Filter, wenn zu viele Ressourcengruppen aufgeführt werden.Use the filter if you have too many resource groups listed.
  4. Auf der Kachel Ressourcen sollte eine Ressource aufgeführt sein, sofern Sie die Ressourcengruppe nicht für andere Projekte freigegeben haben.On the Resources tile, you see one resource listed unless you share the resource group with other projects. Diese Ressource ist das Speicherkonto mit dem Namen, den Sie zuvor angegeben haben.That resource is the storage account with the name you specified earlier. Wählen Sie den Speicherkontonamen aus.Select the storage account name.
  5. Wählen Sie die Kachel Blobs aus.Select the Blobs tiles.
  6. Wählen Sie den Container adfgetstarted aus.Select the adfgetstarted container. Der Ordner hivescripts wird angezeigt.You see a folder called hivescripts.
  7. Öffnen Sie den Ordner, und überprüfen Sie, ob er die Beispielskriptdatei hivescript.hql enthält.Open the folder and make sure it contains the sample script file, hivescript.hql.

Verstehen der Azure Data Factory-AktivitätUnderstand the Azure Data Factory activity

Azure Data Factory orchestriert und automatisiert das Verschieben und Transformieren von Daten.Azure Data Factory orchestrates and automates the movement and transformation of data. Azure Data Factory kann einen HDInsight Hadoop-Cluster Just-In-Time erstellen, um einen eingehenden Datenslice zu verarbeiten, und den Cluster löschen, wenn die Verarbeitung abgeschlossen ist.Azure Data Factory can create an HDInsight Hadoop cluster just-in-time to process an input data slice and delete the cluster when the processing is complete.

In Azure Data Factory kann eine Data Factory über mindestens eine Datenpipeline verfügen.In Azure Data Factory, a data factory can have one or more data pipelines. Eine Datenpipeline verfügt über mindestens eine Aktivität.A data pipeline has one or more activities. Es gibt zwei Arten von Aktivitäten:There are two types of activities:

  • Datenverschiebungsaktivitäten: Sie verwenden Datenverschiebungen zum Verschieben von Daten aus einem Quelldatenspeicher in einen Zieldatenspeicher.Data Movement Activities - You use data movement activities to move data from a source data store to a destination data store.
  • Datentransformationsaktivitäten.Data Transformation Activities. Sie können Datentransformationsaktivitäten verwenden, um Daten zu übertragen und zu verarbeiten.You use data transformation activities to transform/process data. Die HDInsight-Hive-Aktivität ist eine der Transformationsaktivitäten, die von Data Factory unterstützt werden.HDInsight Hive Activity is one of the transformation activities supported by Data Factory. In diesem Tutorial verwenden Sie die Hive-Transformation.You use the Hive transformation activity in this tutorial.

In diesem Artikel konfigurieren Sie die Hive-Aktivität, um einen HDInsight Hadoop-Cluster bedarfsgesteuert zu erstellen.In this article, you configure the Hive activity to create an on-demand HDInsight Hadoop cluster. Folgendes geschieht während der Ausführung der Aktivität zur Verarbeitung von Daten:When the activity runs to process data, here is what happens:

  1. Ein HDInsight Hadoop-Cluster wird automatisch Just-In-Time zur Verarbeitung des Slice für Sie erstellt.An HDInsight Hadoop cluster is automatically created for you just-in-time to process the slice.

  2. Die Eingabedaten werden durch Ausführen des folgenden HiveQL-Skripts im Cluster verarbeitet.The input data is processed by running a HiveQL script on the cluster. In diesem Tutorial führt das HiveQL-Skript, das der Hive-Aktivität zugeordnet ist, die folgenden Aktionen aus:In this tutorial, the HiveQL script associated with the hive activity performs the following actions:

    • Es verwendet die vorhandene Tabelle (hivesampletable) zum Erstellen einer weiteren Tabelle (HiveSampleOut).Uses the existing table (hivesampletable) to create another table HiveSampleOut.
    • Es füllt die Tabelle HiveSampleOut mit bestimmten Spalten aus der ursprünglichen Tabelle hivesampletable auf.Populates the HiveSampleOut table with only specific columns from the original hivesampletable.
  3. Der HDInsight Hadoop-Cluster wird gelöscht, sobald die Verarbeitung abgeschlossen ist, und der Cluster befindet sich während der konfigurierten Zeitspanne im Leerlauf (TimeToLive-Einstellung).The HDInsight Hadoop cluster is deleted after the processing is complete and the cluster is idle for the configured amount of time (timeToLive setting). Wenn der nächste Datenslice zur Verarbeitung innerhalb dieser TimeToLive-Leerlaufzeit verfügbar ist, wird der gleiche Cluster wie für die Verarbeitung des Slice verwendet.If the next data slice is available for processing with in this timeToLive idle time, the same cluster is used to process the slice.

Erstellen einer Data FactoryCreate a data factory

  1. Melden Sie sich beim Azure-Portal an.Sign in to the Azure portal.

  2. Navigieren Sie im Menü auf der linken Seite zu + Ressource erstellen > Analytics > Data Factory.From the left menu, navigate to + Create a resource > Analytics > Data Factory.

    Azure Data Factory im PortalAzure Data Factory on the portal

  3. Geben Sie die folgenden Werte für die Kachel Neue Data Factory ein oder wählen Sie sie aus:Enter or select the following values for the New data factory tile:

    EigenschaftProperty WertValue
    NAMEName Geben Sie einen Namen für die Data Factory ein.Enter a name for the data factory. Dieser Name muss global eindeutig sein.This name must be globally unique.
    AbonnementSubscription Wählen Sie Ihr Azure-Abonnement.Select your Azure subscription.
    RessourcengruppeResource group Wählen Sie Vorhandene verwenden und dann die Ressourcengruppe aus, die Sie mit dem PowerShell-Skript erstellt haben.Select Use existing and then select the resource group you created using the PowerShell script.
    VersionVersion V2 beibehalten.Leave at V2.
    LocationLocation Der Standort wird automatisch auf die Region festgelegt, die Sie beim Erstellen der Ressourcengruppe zuvor angegeben haben.The location is automatically set to the location you specified while creating the resource group earlier. Für dieses Tutorial wird der Standort auf USA, Osten festgelegt.For this tutorial, the location is set to East US.

    Erstellen einer Azure Data Factory mit dem Azure-PortalCreate Azure Data Factory using Azure portal

  4. Klicken Sie auf Erstellen.Select Create. Das Erstellen einer Data Factory kann zwischen 2 und 4 Minuten dauern.Creating a data factory might take anywhere between 2 to 4 minutes.

  5. Nachdem die Data Factory erstellt wurde, erhalten Sie die Benachrichtigung Bereitstellung erfolgreich mit einer Schaltfläche Zu Ressource wechseln.Once the data factory is created, you will receive a Deployment succeeded notification with a Go to resource button. Klicken Sie auf Zu Ressource wechseln, um die Data Factory-Standardansicht zu öffnen.Select Go to resource to open the Data Factory default view.

  6. Wählen Sie Erstellen und überwachen aus, um das Azure Data Factory-Portal für das Erstellen und Überwachen zu starten.Select Author & Monitor to launch the Azure Data Factory authoring and monitoring portal.

    Azure Data Factory – ÜbersichtAzure Data Factory overview

Erstellen von verknüpften DienstenCreate linked services

In diesem Abschnitt erstellen Sie zwei verknüpfte Dienste in Ihrer Data Factory.In this section, you author two linked services within your data factory.

  • Einen verknüpften Azure Storage-Dienst, der ein Azure-Speicherkonto mit der Data Factory verknüpft.An Azure Storage linked service that links an Azure storage account to the data factory. Dieser Speicher wird vom bedarfsgesteuerten HDInsight-Cluster verwendet.This storage is used by the on-demand HDInsight cluster. Außerdem enthält er das Hive-Skript, das im Cluster ausgeführt wird.It also contains the Hive script that is run on the cluster.
  • Einen bedarfsgesteuerten verknüpften HDInsight-Dienst.An on-demand HDInsight linked service. Azure Data Factory erstellt automatisch einen HDInsight-Cluster und führt das Hive-Skript aus.Azure Data Factory automatically creates an HDInsight cluster and runs the Hive script. Anschließend wird der HDInsight-Cluster gelöscht, nachdem er sich für einen vorkonfigurierten Zeitraum im Leerlauf befunden hat.It then deletes the HDInsight cluster after the cluster is idle for a preconfigured time.

Erstellen eines verknüpften Azure Storage-DienstsCreate an Azure Storage linked service

  1. Wählen Sie im linken Bereich auf der Seite Erste Schritte das Symbol Autor aus.From the left pane of the Let's get started page, select the Author icon.

    Erstellen eines verknüpften Azure Data Factory-DienstsCreate an Azure Data Factory linked service

  2. Wählen Sie links unten im Fenster die Option Verbindungen und dann + Neu aus.Select Connections from the bottom-left corner of the window and then select +New.

    Erstellen von Verbindungen in Azure Data FactoryCreate connections in Azure Data Factory

  3. Wählen Sie im Dialogfeld Neuer verknüpfter Dienst die Option Azure Blob Storage und dann Weiter aus.In the New Linked Service dialog box, select Azure Blob Storage and then select Continue.

    Erstellen eines mit Azure Storage verknüpften Diensts für Data FactoryCreate Azure Storage linked service for Data Factory

  4. Stellen Sie die folgenden Werte für den mit Speicher verknüpften Dienst bereit:Provide the following values for the storage linked service:

    EigenschaftProperty WertValue
    NAMEName Geben Sie HDIStorageLinkedService ein.Enter HDIStorageLinkedService.
    Azure-AbonnementAzure subscription Wählen Sie in der Dropdownliste Ihr Abonnement aus.Select your subscription from the drop-down list.
    SpeicherkontonameStorage account name Wählen Sie das Azure Storage-Konto aus, das Sie als Teil des PowerShell-Skripts erstellt haben.Select the Azure Storage account you created as part of the PowerShell script.

    Klicken Sie dann auf Fertig stellen.Then select Finish.

    Angeben eines Namens für den mit Azure Storage verknüpften DienstProvide name for Azure Storage linked service

Erstellen eines bedarfsgesteuerten verknüpften HDInsight-DienstsCreate an on-demand HDInsight linked service

  1. Wählen Sie erneut die Schaltfläche + Neu, um einen weiteren verknüpften Dienst zu erstellen.Select the + New button again to create another linked service.

  2. Wählen Sie im Fenster Neuer verknüpfter Dienst die Registerkarte Compute aus.In the New Linked Service window, select the Compute tab.

  3. Wählen Sie Azure HDInsight und dann Weiter aus.Select Azure HDInsight, and then select Continue.

    Erstellen eines mit HDInsight verknüpften Diensts für Azure Data FactoryCreate HDInsight linked service for Azure Data Factory

  4. Geben Sie im Fenster Neuer verknüpfter Dienst die folgenden Werte ein, und belassen Sie für die restlichen Optionen die Standardwerte:In the New Linked Service window, enter the following values and leave the rest as default:

    EigenschaftProperty WertValue
    NAMEName Geben Sie HDinisghtLinkedService ein.Enter HDinisghtLinkedService.
    TypeType Wählen Sie HDInsight bedarfsgesteuert aus.Select On-demand HDInsight.
    Mit Azure-Speicher verknüpfter DienstAzure Storage Linked Service Wählen Sie HDIStorageLinkedService aus.Select HDIStorageLinkedService.
    ClustertypCluster type Wählen Sie hadoop aus.Select hadoop
    GültigkeitsdauerTime to live Geben Sie an, wie lange der HDInsight-Cluster verfügbar sein soll, bevor er automatisch gelöscht wird.Provide the duration for which you want the HDInsight cluster to be available before being automatically deleted.
    Dienstprinzipal-IDService principal ID Geben Sie die Anwendungs-ID des Azure Active Directory-Dienstprinzipals an, den Sie zur Vorbereitung erstellt haben.Provide the application ID of the Azure Active Directory service principal you created as part of the prerequisites.
    DienstprinzipalschlüsselService principal key Geben Sie den Authentifizierungsschlüssel für den Azure Active Directory-Dienstprinzipal an.Provide the authentication key for the Azure Active Directory service principal.
    ClusternamenspräfixCluster name prefix Geben Sie einen Wert an, der allen von der Data Factory erstellten Clustertypen vorangestellt wird.Provide a value that will be prefixed to all the cluster types that are created by the data factory.
    AbonnementSubscription Wählen Sie in der Dropdownliste Ihr Abonnement aus.Select your subscription from the drop-down list.
    Auswählen der RessourcengruppeSelect resource group Wählen Sie die Ressourcengruppe, die Sie zuvor mit dem PowerShell-Skript erstellt haben, aus.Select the resource group you created as part of the PowerShell script you used earlier.
    Region auswählenSelect region Wählen Sie in der Dropdownliste eine Region aus.Select a region from the drop-down list.
    Betriebssystemtyp/SSH-Benutzername für den ClusterOS type/Cluster SSH user name Geben Sie einen SSH-Benutzernamen ein, üblicherweise sshuser.Enter an SSH user name, commonly sshuser.
    Betriebssystemtyp/SSH-Kennwort für den ClusterOS type/Cluster SSH password Geben Sie ein Kennwort für den SSH-Benutzer an.Provide a password for the SSH user
    Betriebssystemtyp/Benutzername für den ClusterOS type/Cluster user name Geben Sie einen Clusterbenutzernamen ein, üblicherweise admin.Enter a cluster user name, commonly admin.
    Betriebssystemtyp/Benutzerkennwort für den ClusterOS type/Cluster user password Stellen Sie ein Kennwort für den Clusterbenutzer bereit.Provide a password for the cluster user.

    Klicken Sie dann auf Fertig stellen.Then select Finish.

    Angeben von Werten für einen mit HDInsight verknüpften DienstProvide values for HDInsight linked service

Erstellen einer PipelineCreate a pipeline

  1. Klicken Sie auf die Schaltfläche + (Plus) und dann auf Pipeline.Select the + (plus) button, and then select Pipeline.

    Erstellen einer Pipeline in Azure Data FactoryCreate a pipeline in Azure Data Factory

  2. Erweitern Sie in der Toolbox Aktivitäten die Option HDInsight, und ziehen Sie die Aktivität Hive auf die Oberfläche des Pipeline-Designers.In the Activities toolbox, expand HDInsight, and drag the Hive activity to the pipeline designer surface. Geben Sie auf der Registerkarte Allgemein einen Namen für die Aktivität an.In the General tab, provide a name for the activity.

    Hinzufügen von Aktivitäten zur Data Factory-PipelineAdd activities to Data Factory pipeline

  3. Vergewissern Sie sich, dass die Hive-Aktivität ausgewählt ist, und wählen Sie die Registerkarte HDI-Cluster und dann in der Dropdownliste Verknüpfter HDInsight-Dienst den verknüpften Dienst, HDinightLinkedService, den Sie zuvor für HDInsight erstellt haben, aus.Make sure you have the Hive activity selected, select the HDI Cluster tab, and from the HDInsight Linked Service drop-down list, select the linked service you created earlier, HDinightLinkedService, for HDInsight.

    Angeben von Details zum HDInsight-Cluster für die PipelineProvide HDInsight cluster details for the pipeline

  4. Wählen Sie die Registerkarte Skript aus, und führen Sie die folgenden Schritte aus:Select the Script tab and complete the following steps:

    1. Wählen Sie unter Mit dem Skript verknüpfter Dienst die Option HDIStorageLinkedService aus der Dropdownliste aus.For Script Linked Service, select HDIStorageLinkedService from the drop-down list. Dieser Wert ist der zuvor erstellte mit Storage verknüpfte Dienst.This value is the storage linked service you created earlier.

    2. Wählen Sie für Dateipfad die Option Storage durchsuchen aus, und navigieren Sie zum Speicherort des Hive-Beispielskripts.For File Path, select Browse Storage and navigate to the location where the sample Hive script is available. Wenn Sie zuvor das PowerShell-Skript ausgeführt haben, sollte dieser Speicherort adfgetstarted/hivescripts/hivescript.hql lauten.If you ran the PowerShell script earlier, this location should be adfgetstarted/hivescripts/hivescript.hql.

      Angeben von Details zum Hive-Skript für die PipelineProvide Hive script details for the pipeline

    3. Wählen Sie unter Erweitert > Parameter die Option AutoAusfüllen aus Skript aus.Under Advanced > Parameters, select Auto-fill from script. Diese Option sucht alle Parameter im Hive-Skript, die zur Laufzeit Werte erfordern.This option looks for any parameters in the Hive script that require values at runtime. Das von Ihnen verwendete Skript (hivescript.hql) verfügt über den Parameter Output.The script you use (hivescript.hql) has an Output parameter. Geben Sie den Wert im Format wasb://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ an, sodass er auf einen vorhandenen Ordner in Ihrem Azure Storage zeigt.Provide the value in the format wasb://adfgetstarted@<StorageAccount>.blob.core.windows.net/outputfolder/ to point to an existing folder on your Azure Storage. Beim Pfad wird die Groß-/Kleinschreibung beachtet.The path is case-sensitive. Dies ist der Pfad, in dem die Ausgabe des Skripts gespeichert wird.This is the path where the output of the script will be stored.

      Angeben von Parametern für das Hive-SkriptProvide parameters for the Hive script

  5. Wählen Sie Überprüfen aus, um die Pipeline zu überprüfen.Select Validate to validate the pipeline. Wählen Sie die Schaltfläche >> (Pfeil nach rechts), um das Überprüfungsfenster zu schließen.Select the >> (right arrow) button to close the validation window.

    Überprüfen der Azure Data Factory-PipelineValidate the Azure Data Factory pipeline

  6. Wählen Sie abschließend Alle veröffentlichen aus, um die Artefakte in Azure Data Factory zu veröffentlichen.Finally, select Publish All to publish the artifacts to Azure Data Factory.

    Veröffentlichen der Azure Data Factory-PipelinePublish the Azure Data Factory pipeline

Auslösen einer PipelineTrigger a pipeline

  1. Wählen Sie auf der Designeroberfläche auf der Symbolleiste Auslöser hinzufügen > Jetzt auslösen aus.From the toolbar on the designer surface, select Add trigger > Trigger Now.

    Auslösen der Azure Data Factory-PipelineTrigger the Azure Data Factory pipeline

  2. Wählen Sie auf der eingeblendeten Seitenleiste Fertig stellen aus.Select Finish in the pop-up side bar.

Überwachen einer PipelineMonitor a pipeline

  1. Wechseln Sie im linken Bereich zur Registerkarte Überwachen.Switch to the Monitor tab on the left. In der Liste mit den Pipelineausführungen wird eine Pipelineausführung angezeigt.You see a pipeline run in the Pipeline Runs list. Beachten Sie den Status der Ausführung in der Spalte Status.Notice the status of the run under the Status column.

    Überwachen der Azure Data Factory-PipelineMonitor the Azure Data Factory pipeline

  2. Wählen Sie zum Aktualisieren des Status die Option Aktualisieren.Select Refresh to refresh the status.

  3. Sie können auch das Symbol View Activity Runs (Aktivitätsausführungen anzeigen) auswählen, um die mit der Pipelineausführung verknüpfte Aktivitätsausführung anzuzeigen.You can also select the View Activity Runs icon to see the activity run associated with the pipeline. Da die von Ihnen erstellte Pipeline nur eine einzelne Aktivität enthält, wird im Screenshot nur eine Aktivitätsausführung angezeigt.In the screenshot below, you see only one activity run since there is only one activity in the pipeline you created. Um wieder in die vorherige Ansicht zu wechseln, wählen Sie oben auf der Seite Pipelines aus.To switch back to the previous view, select Pipelines towards the top of the page.

    Überwachen der Azure Data Factory-PipelineaktivitätMonitor the Azure Data Factory pipeline activity

Überprüfen der AusgabeVerify the output

  1. Um die Ausgabe zu überprüfen, navigieren Sie im Azure-Portal zu dem Speicherkonto, das Sie für dieses Tutorial verwendet haben.To verify the output, in the Azure portal navigate to the storage account that you used for this tutorial. Die folgenden Ordner und Container sollten angezeigt werden:You should see the following folders or containers:

    • Sie sehen, dass adfgerstarted/outputfolder die Ausgabe des Hive-Skripts enthält, das als Teil der Pipeline ausgeführt wurde.You see an adfgerstarted/outputfolder that contains the output of the Hive script that was run as part of the pipeline.

    • Sie sehen den Container adfhdidatafactory-<Name-des-verknüpften-Diensts>-<Zeitstempel> .You see an adfhdidatafactory-<linked-service-name>-<timestamp> container. Dieser Container ist der Standardspeicherort des HDInsight-Clusters, der als Teil der Pipelineausführung erstellt wurde.This container is the default storage location of the HDInsight cluster that was created as part of the pipeline run.

    • Der Container adfjobs enthält die Protokolle des Azure Data Factory-Auftrags.You see an adfjobs container that has the Azure Data Factory job logs.

      Überprüfen der Azure Data Factory-PipelineausgabeVerify the Azure Data Factory pipeline output

Bereinigen des TutorialsClean up the tutorial

Bei einer bedarfsgesteuerten HDInsight-Clustererstellung müssen Sie den HDInsight-Cluster nicht explizit löschen.With the on-demand HDInsight cluster creation, you do not need to explicitly delete the HDInsight cluster. Der Cluster wird gemäß der Konfiguration, die Sie beim Erstellen der Pipeline bereitgestellt haben, gelöscht.The cluster is deleted based on the configuration you provided while creating the pipeline. Auch nachdem der Cluster gelöscht wurde, bleiben die mit dem Cluster verbundenen Speicherkonten jedoch vorhanden.However, even after the cluster is deleted, the storage accounts associated with the cluster continue to exist. Dieses Verhalten ist beabsichtigt, damit Ihre Daten intakt bleiben.This behavior is by design so that you can keep your data intact. Wenn Sie die Daten nicht beibehalten möchten, können Sie das erstellte Speicherkonto aber löschen.However, if you do not want to persist the data, you may delete the storage account you created.

Alternativ können Sie die gesamte Ressourcengruppe löschen, die Sie für dieses Tutorial erstellt haben.Alternatively, you can delete the entire resource group that you created for this tutorial. Dadurch werden das Speicherkonto und die Azure Data Factory, die Sie erstellt haben, gelöscht.This deletes the storage account and the Azure Data Factory that you created.

Löschen der RessourcengruppeDelete the resource group

  1. Melden Sie sich beim Azure-Portalan.Sign on to the Azure portal.

  2. Wählen Sie im linken Bereich Ressourcengruppen aus.Select Resource groups on the left pane.

  3. Wählen Sie den Namen der Ressourcengruppe, die Sie im PowerShell-Skript erstellt haben, aus.Select the resource group name you created in your PowerShell script. Verwenden Sie den Filter, wenn zu viele Ressourcengruppen aufgeführt werden.Use the filter if you have too many resource groups listed. Daraufhin wird die Ressourcengruppe geöffnet.It opens the resource group.

  4. Auf der Kachel Ressourcen sollten das Standardspeicherkonto und die Data Factory aufgeführt sein, wenn Sie die Ressourcengruppe nicht für andere Projekte freigegeben haben.On the Resources tile, you shall have the default storage account and the data factory listed unless you share the resource group with other projects.

  5. Wählen Sie die Option Ressourcengruppe löschen.Select Delete resource group. Auf diese Weise werden das Speicherkonto und die Daten im Speicherkonto gelöscht.Doing so deletes the storage account and the data stored in the storage account.

    Löschen der RessourcengruppeDelete resource group

  6. Geben Sie den Namen der Ressourcengruppe ein, um den Löschvorgang zu bestätigen, und wählen Sie dann Löschen aus.Enter the resource group name to confirm deletion, and then select Delete.

Nächste SchritteNext steps

In diesem Artikel haben Sie gelernt, wie Sie bedarfsgesteuert mit Azure Data Factory einen HDInsight-Cluster erstellen und Apache Hive-Aufträge ausführen.In this article, you learned how to use Azure Data Factory to create on-demand HDInsight cluster and run Apache Hive jobs. Fahren Sie mit dem nächsten Artikel fort, um zu erfahren, wie Sie HDInsight-Cluster mit einer benutzerdefinierten Konfiguration erstellen.Advance to the next article to learn how to create HDInsight clusters with custom configuration.