Schnellstart: Erste Schritte mit Apache Hadoop und Apache Hive in Azure HDInsight im Azure-PortalQuickstart: Get started with Apache Hadoop and Apache Hive in Azure HDInsight using the Azure portal

In diesem Artikel erfahren Sie, wie Sie über das Azure-Portal Apache Hadoop-Cluster in HDInsight erstellen und dann Apache Hive-Aufträge in HDInsight ausführen.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. Die meisten Hadoop-Aufträge sind Batchaufträge.Most of Hadoop jobs are batch jobs. Sie erstellen einen Cluster, führen einige Aufträge aus und löschen dann den Cluster.You create a cluster, run some jobs, and then delete the cluster. In diesem Artikel führen Sie alle drei Aufgaben durch.In this article, you perform all the three tasks.

In dieser Schnellstartanleitung verwenden Sie das Azure-Portal, um einen HDInsight-Hadoop-Cluster zu erstellen.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. Sie können einen Cluster auch mithilfe der Azure Resource Manager-Vorlage erstellen.You can also create a cluster using the Azure Resource Manager template.

Zurzeit stehen in HDInsight sieben verschiedene Clustertypen zur Verfügung.Currently HDInsight comes with seven different cluster types. Jeder Clustertyp unterstützt eine andere Gruppe von Komponenten.Each cluster type supports a different set of components. Alle Clustertypen unterstützen Hive.All cluster types support Hive. Eine Liste mit den unterstützten Komponenten in HDInsight finden Sie unter Neuheiten in den von HDInsight bereitgestellten Apache Hadoop-Clusterversionen.For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.If you don't have an Azure subscription, create a free account before you begin.

Erstellen eines Apache Hadoop-ClustersCreate an Apache Hadoop cluster

In diesem Abschnitt erstellen Sie im Azure-Portal einen Hadoop-Cluster in HDInsight.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Melden Sie sich beim Azure-Portal an.Log in to the Azure portal.

  2. Wählen Sie im Azure-Portal Ressource erstellen > Daten + Analysen > HDInsight aus.In the Azure portal, select Create a resource > Data + Analytics > HDInsight.

    Databricks im Azure-PortalDatabricks on Azure portal

  3. Geben Sie unter HDInsight > Schnellerfassung > Grundlagen die Werte wie im folgenden Screenshot empfohlen an:Under HDInsight > Quick Create > Basics, provide the values as suggested in the following screenshot:

    Erste Schritte: Angeben grundlegender Werte für HDInsight-Linux- ClusterHDInsight Linux get started provide cluster basic values

    Geben Sie folgende Werte ein bzw. wählen diese aus:Enter or select the following values:

    EigenschaftProperty BESCHREIBUNGDescription
    ClusternameCluster name Geben Sie einen Namen für den Hadoop-Cluster ein.Enter a name for the Hadoop cluster. Da für alle Cluster in HDInsight gemeinsam derselbe DNS-Namespace genutzt wird, muss dieser Name eindeutig sein.Because all clusters in HDInsight share the same DNS namespace this name needs to be unique. Der Name kann aus bis zu 59 Zeichen mit Buchstaben, Zahlen und Bindestrichen bestehen.The name can consist of up to 59 characters includings letters, numbers, and hyphens. Das erste und das letzte Zeichen des Namens dürfen keine Bindestriche sein.The first and last characters of the name cannot be hyphens.
    AbonnementSubscription Wählen Sie Ihr Azure-Abonnement.Select your Azure subscription.
    ClustertypCluster Type Überspringen Sie diese Angabe jetzt.Skip this for now. Sie geben diese Informationen im nächsten Schritt dieses Verfahrens an.You provide this input in the next step of this procedure.
    Anmeldebenutzernamen und Kennwort für den ClusterCluster login username and password Der Standardanmeldename lautet admin. Das Kennwort muss mindestens zehn Zeichen lang sein und mindestens eine Ziffer, einen Groß- und einen Kleinbuchstaben sowie ein nicht alphanumerisches Zeichen enthalten (mit Ausnahme folgender Zeichen: ' " ` )).The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Stellen Sie sicher, dass Sie keine häufig verwendeten Kennwörter wie „Pass@word1“ angeben.Make sure you do not provide common passwords such as "Pass@word1".
    SSH-BenutzernameSSH username Der Standardbenutzername lautet sshuser.The default username is sshuser. Sie können einen anderen SSH-Benutzernamen angeben.You can provide another name for the SSH username.
    Dasselbe Kennwort wie für die Clusteranmeldung verwendenUse same password as cluster login Aktivieren Sie dieses Kontrollkästchen, um das gleiche Kennwort für den SSH-Benutzer zu verwenden, das Sie für den Clusteranmeldebenutzer angegeben haben.Select this checkbox to use the same password for SSH user as the one you provided for the cluster login user.
    RessourcengruppeResource group Erstellen Sie eine Ressourcengruppe, oder wählen Sie eine vorhandene Ressourcengruppe aus.Create a resource group or select an existing resource group. Bei einer Ressourcengruppe handelt es sich um einen Container mit Azure-Komponenten.A resource group is a container of Azure components. In diesem Fall enthält die Ressourcengruppe den HDInsight-Cluster und das abhängige Azure Storage-Konto.In this case, the resource group contains the HDInsight cluster and the dependent Azure Storage account.
    LocationLocation Wählen Sie den Azure-Speicherort aus, wo Sie Ihren Cluster erstellen möchten.Select an Azure location where you want to create your cluster. Je näher der Standort, desto besser die Leistung.Choose a location closer to you for better performance.
  4. Wählen Sie Clustertyp aus, und geben Sie die Informationen wie im folgenden Screenshot gezeigt ein:Select Cluster type and then provide the inputs as shown in the following screenshot:

    Erste Schritte: Angeben grundlegender Werte für HDInsight-Linux- ClusterHDInsight Linux get started provide cluster basic values

    Wählen Sie folgende Werte aus:Select the following values:

    EigenschaftProperty BESCHREIBUNGDescription
    ClustertypCluster type Wählen Sie Hadoop aus.Select Hadoop
    BetriebssystemOperating system Wählen Sie Linux aus.Select Linux
    VersionVersion Wählen Sie Hadoop 2.7.3 (HDI 3.6) aus.Select Hadoop 2.7.3 (HDI 3.6)

    Klicken Sie auf Auswählen und dann auf Weiter.Click Select and then click Next.

  5. Geben Sie auf der Registerkarte Speicher die Informationen wie im folgenden Screenshot gezeigt ein:In the Storage tab, provide the inputs as shown in the following screenshot:

    Erste Schritte: Angeben von Speicherwerten für HDInsight-Linux- ClusterHDInsight Linux get started provide cluster storage values

    Wählen Sie folgende Werte aus:Select the following values:

    EigenschaftProperty BESCHREIBUNGDescription
    Primärer SpeichertypPrimary storage type Wählen Sie für diesen Artikel Azure-Speicher aus, um Azure Storage Blob als Standardspeicherkonto zu verwenden.For this article, select Azure storage to use Azure Storage Blob as the default storage account. Sie können auch Azure Data Lake Storage als Standardspeicher verwenden.You can also use Azure Data Lake Storage as the default storage.
    AuswahlmethodeSelection method Wählen Sie für diesen Artikel Meine Abonnements aus, um ein Speicherkonto aus Ihrem Azure-Abonnement zu verwenden.For this article, select My subscriptions to use a storage account from your Azure subscription. Um ein Speicherkonto aus einem anderen Abonnement zu verwenden, wählen Sie Zugriffsschlüssel aus, und geben Sie den Zugriffsschlüssel für das entsprechende Konto an.To use storage account from other subscriptions, select Access key and then provide the access key for that account.
    Erstellen eines neuen SpeicherkontosCreate a new storage account Geben Sie einen Namen für das Speicherkonto an.Provide a name for the storage account.

    Übernehmen Sie alle anderen Standardwerte, und klicken Sie auf Weiter.Accept all other default values and then select Next.

  6. Überprüfen Sie auf der Registerkarte Zusammenfassung die Werte, die Sie in den vorhergehenden Schritten ausgewählt haben.In the Summary tab, verify the values you selected in the earlier steps.

    Erste Schritte: Zusammenfassung für HDInsight-Linux-ClusterHDInsight Linux get started cluster summary

  7. Klicken Sie auf Erstellen.Select Create. Im Portaldashboard wird die neue Kachel Bereitstellung für HDInsight wird übermittelt angezeigt.You shall see a new tile titled Submitting deployment for HDInsight on the portal dashboard. Das Erstellen eines Clusters dauert ca. 20 Minuten.It takes about 20 minutes to create a cluster.

    HDInsight unter Linux, Erste Schritte mit der RessourcengruppeHDInsight Linux get started resource group

  8. Sobald der Cluster erstellt wurde, sehen Sie die Zusammenfassungsseite für den Cluster im Azure-Portal.Once the cluster is created, you see the cluster overview page in the Azure portal.

    HDInsight unter Linux, Erste Schritte mit ClustereinstellungenHDInsight Linux get started cluster settings

    Jeder Cluster verfügt über eine Abhängigkeit von einem Azure Storage-Konto oder einem Azure Data Lake-Konto.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. Es wird als Standardspeicherkonto bezeichnet.It is referred as the default storage account. Der HDInsight-Cluster und das dazugehörige Speicherkonto müssen sich in derselben Azure-Region befinden.HDInsight cluster and its default storage account must be co-located in the same Azure region. Beim Löschen von Clustern wird das Speicherkonto nicht gelöscht.Deleting clusters does not delete the storage account.

    Hinweis

    Andere Methoden zur Erstellung von Clustern und Informationen zu den in diesem Tutorial verwendeten Eigenschaften finden Sie unter Erstellen von HDInsight-Clustern.For other cluster creation methods and understanding the properties used in this tutorial, see Create HDInsight clusters.

Ausführen von Apache Hive-AbfragenRun Apache Hive queries

Apache Hive ist die am häufigsten in HDInsight verwendete Komponente.Apache Hive is the most popular component used in HDInsight. Es gibt viele Verfahren zum Ausführen von Hive-Aufträgen in HDInsight.There are many ways to run Hive jobs in HDInsight. In diesem Tutorial verwenden Sie die Ambari Hive-Ansicht aus dem Portal.In this tutorial, you use the Ambari Hive view from the portal. Andere Methoden zum Übermitteln von Hive-Aufträgen finden Sie unter Verwenden von Hive in HDInsight.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

  1. Um Ambari zu öffnen, wählen Sie im vorherigen Screenshot Clusterdashboard aus.To open Ambari, from the previous screenshot, select Cluster Dashboard. Sie können auch zu https://<Clustername>.azurehdinsight.net navigieren, wobei „<Clustername>“ der Cluster ist, den Sie im letzten Abschnitt erstellt haben.You can also browse to https://<ClusterName>.azurehdinsight.net, where <ClusterName> is the cluster you created in the previous section.

    Erste Schritte: Dashboard für HDInsight-Linux-ClusterHDInsight Linux get started cluster dashboard

  2. Geben Sie den Hadoop-Benutzernamen, den Sie beim Erstellen des Clusters angegeben haben, und das dazugehörige Kennwort ein.Enter the Hadoop username and password that you specified while creating the cluster. Der Standard-Benutzername lautet admin.The default username is admin.

  3. Öffnen Sie die Hive-Ansicht wie im folgenden Screenshot dargestellt:Open Hive View as shown in the following screenshot:

    Auswählen von Ambari-AnsichtenSelecting Ambari views

  4. Fügen Sie auf der Registerkarte ABFRAGE die folgenden HiveQL-Anweisungen in das Arbeitsblatt ein:In the QUERY tab, paste the following HiveQL statements into the worksheet:

     SHOW TABLES;
    

    HDInsight Hive-AnsichtenHDInsight Hive views

  5. Wählen Sie Execute(Ausführen).Select Execute. Die Registerkarte ERGEBNISSE wird unterhalb der Registerkarte ABFRAGE angezeigt und enthält Informationen zum Auftrag.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    Nach Abschluss der Abfrage werden auf der Registerkarte ABFRAGE die Ergebnisse des Vorgangs angezeigt.Once the query has finished, The QUERY tab displays the results of the operation. Sie sehen eine Tabelle mit dem Namen hivesampletable.You shall see one table called hivesampletable. Die ist eine Hive-Beispieltabelle mit allen HDInsight-Clustern.This sample Hive table comes with all the HDInsight clusters.

    HDInsight Hive-AnsichtenHDInsight Hive views

  6. Wiederholen Sie die Schritte 4 und 5, um die folgende Abfrage ausführen:Repeat step 4 and step 5 to run the following query:

     SELECT * FROM hivesampletable;
    
  7. Sie können die Ergebnisse der Abfrage auch speichern.You can also save the results of the query. Wählen Sie die Menüschaltfläche rechts aus, und geben Sie an, ob Sie die Ergebnisse als CSV-Datei herunterladen oder in dem Speicherkonto speichern möchten, das dem Cluster zugeordnet ist.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Speichern der Ergebnisse einer Hive-AbfrageSave result of Hive query

Nachdem Sie einen Hive-Auftrag abgeschlossen haben, können Sie die Ergebnisse in eine Azure SQL-Datenbank oder eine SQL Server-Datenbank exportieren und die Abfrageergebnisse mithilfe von Excel visualisieren.After you have completed a Hive job, you can export the results to Azure SQL database or SQL Server database, you can also visualize the results using Excel. Weitere Informationen zum Verwenden von Hive in HDInsight finden Sie unter Verwenden von Apache Hive und HiveQL mit Apache Hadoop in HDInsight zum Analysieren einer Apache Log4j-Beispieldatei.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

ProblembehandlungTroubleshoot

Falls beim Erstellen von HDInsight-Clustern Probleme auftreten, sehen Sie sich die Voraussetzungen für die Zugriffssteuerung an.If you run into issues with creating HDInsight clusters, see access control requirements.

Bereinigen von RessourcenClean up resources

Nach Abschluss des Tutorials kann es ratsam sein, den Cluster zu löschen.After you complete the tutorial, you may want to delete the cluster. Mit HDInsight werden Ihre Daten im Azure-Speicher gespeichert, sodass Sie einen Cluster problemlos löschen können, wenn er nicht verwendet wird.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Für einen HDInsight-Cluster fallen auch dann Gebühren an, wenn er nicht verwendet wird.You are also charged for an HDInsight cluster, even when it is not in use. Da die Gebühren für den Cluster erheblich höher sind als die Kosten für den Speicher, ist es sinnvoll, nicht verwendete Cluster zu löschen.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Hinweis

Wenn Sie sofort mit dem nächsten Tutorial fortfahren, um zu erfahren, wie Sie ETL-Vorgänge mithilfe von Hadoop in HDInsight ausführen, können Sie den Cluster weiterhin ausführen.If you are immediately proceeding to the next tutorial to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. Ansonsten müssen Sie in diesem Tutorial erneut einen Hadoop-Cluster erstellen.This is because in the tutorial you have to create a Hadoop cluster again. Wenn Sie jedoch nicht direkt mit dem nächsten Tutorial fortfahren, sollten Sie den Cluster jetzt löschen.However, if you are not going through the next tutorial right away, you must delete the cluster now.

So löschen Sie den Cluster bzw. das StandardspeicherkontoTo delete the cluster and/or the default storage account

  1. Wechseln Sie zurück zur Browserregisterkarte für das Azure-Portal.Go back to the browser tab where you have the Azure portal. Die Seite mit der Clusterübersicht sollte angezeigt werden.You shall be on the cluster overview page. Klicken Sie auf Löschen, wenn Sie nur den Cluster löschen, aber das Standardspeicherkonto behalten möchten.If you only want to delete the cluster but retain the default storage account, select Delete.

    HDInsight: Cluster löschenHDInsight delete cluster

  2. Wenn Sie sowohl den Cluster als auch das Standardspeicherkonto löschen möchten, wählen Sie den Ressourcengruppennamen (im vorherigen Screenshot markiert) aus, um die Seite für die Ressourcengruppe zu öffnen.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Klicken Sie auf Ressourcengruppe löschen, um die Ressourcengruppe zu löschen, die den Cluster und das Standardspeicherkonto enthält.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Beachten Sie, dass das Speicherkonto beim Löschen der Ressourcengruppe ebenfalls gelöscht wird.Note deleting the resource group deletes the storage account. Wenn Sie das Speicherkonto beibehalten möchten, müssen Sie auswählen, dass nur der Cluster gelöscht werden soll.If you want to keep the storage account, choose to delete the cluster only.

Nächste SchritteNext steps

In diesem Tutorial haben Sie erfahren, wie Sie mithilfe einer Resource Manager-Vorlage einen Linux-basierten HDInsight-Cluster erstellen und einfache Hive-Abfragen ausführen.In this tutorial, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. Im nächsten Artikel erfahren Sie, wie Sie mithilfe von Hadoop in HDInsight einen ETL-Vorgang zum Extrahieren, Transformieren und Laden von Daten ausführen.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.

Wenn Sie mit eigenen Daten arbeiten und mehr darüber wissen möchten, wie Daten in HDInsight gespeichert oder verwendet werden, finden Sie weitere Informationen in folgenden Artikeln:If you're ready to start working with your own data and need to know more about how HDInsight stores data or how to get data into HDInsight, see the following articles:

Weitere Informationen zur Datenanalyse mit HDInsight finden Sie in den folgenden Artikeln:To learn more about analyzing data with HDInsight, see the following articles:

Weitere Informationen zum Erstellen und Verwalten von HDInsight-Clustern finden Sie in folgenden Artikeln:If you'd like to learn more about creating or managing an HDInsight cluster, see the following articles: