Quickstart: Apache Hadoop-cluster maken in Azure HDInsight met behulp van Azure portalQuickstart: Create Apache Hadoop cluster in Azure HDInsight using Azure portal

In dit artikel leert u hoe u Apache Hadoop-clusters maakt in HDInsight met behulp van de Azure-portal en vervolgens Apache Hive-taken uitvoert in HDInsight.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. De meeste Hadoop-taken zijn batchtaken.Most of Hadoop jobs are batch jobs. U maakt een cluster, voert enkele taken uit en verwijdert het cluster vervolgens.You create a cluster, run some jobs, and then delete the cluster. In dit artikel gaat u al deze drie taken uitvoeren.In this article, you perform all the three tasks.

In deze snelstartgids gebruikt u Azure Portal voor het maken van een Hadoop-cluster in HDInsight.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. U kunt ook een cluster maken met behulp van een Azure Resource Manager-sjabloon.You can also create a cluster using the Azure Resource Manager template.

Op dit moment wordt HDInsight geleverd met zeven verschillende clustertypen.Currently HDInsight comes with seven different cluster types. Elk clustertype ondersteunt een andere set onderdelen.Each cluster type supports a different set of components. Alle clustertypen ondersteunen Hive.All cluster types support Hive. Zie Wat is er nieuw in de Apache Hadoop-clusterversies geleverd door HDInsight? voor een lijst met ondersteunde onderdelen in HDInsight.For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Als u geen abonnement op Azure hebt, maakt u een gratis account voordat u begint.If you don't have an Azure subscription, create a free account before you begin.

Een Apache Hadoop-cluster makenCreate an Apache Hadoop cluster

In deze sectie maakt u een Hadoop-cluster in HDInsight met behulp van Azure Portal.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Meld u aan bij de Azure Portal.Sign in to the Azure portal.

  2. Vanuit de Azure-portal, gaat u naar een resource maken > Analytics > HDInsight.From the Azure portal, navigate to Create a resource > Analytics > HDInsight.

    Databricks in Azure PortalDatabricks on Azure portal

  3. Onder HDInsight > snelle invoer > basisbeginselenTyp of Selecteer de volgende waarden:Under HDInsight > Quick create > Basics, enter or select the following values:

    EigenschapProperty DescriptionDescription
    ClusternaamCluster name Voer een naam in voor het Hadoop-cluster.Enter a name for the Hadoop cluster. Omdat alle clusters in HDInsight dezelfde DNS-naamruimte delen, moet deze naam uniek zijn.Because all clusters in HDInsight share the same DNS namespace this name needs to be unique. De naam kan bestaan uit maximaal 59 tekens, inclusief letters, cijfers en afbreekstreepjes bevatten.The name can consist of up to 59 characters including letters, numbers, and hyphens. De eerste en laatste tekens van de naam mogen geen streepjes zijn.The first and last characters of the name cannot be hyphens.
    SubscriptionSubscription Selecteer uw Azure-abonnement.Select your Azure subscription.
    ClustertypeCluster type Deze stap kunt u nu overslaan.Skip this for now. U geeft het type cluster op in de volgende stap van deze procedure.You provide this input in the next step of this procedure.
    Gebruikersnaam en wachtwoordCluster login username and password De standaardaanmeldingsnaam is admin. Het wachtwoord moet uit minstens tien tekens bestaan en moet minstens één cijfer, één hoofdletter, één kleine letter en één niet-alfanumeriek teken bevatten (uitgezonderd ' " ` ).The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Zorg ervoor dat u geen makkelijk te raden wachtwoorden gebruikt, zoals 'Pass@word1'.Make sure you do not provide common passwords such as "Pass@word1".
    SSH-gebruikersnaam (Secure Shell)Secure Shell (SSH) username De standaardgebruikersnaam is sshuser.The default username is sshuser. U kunt hier echter een andere naam opgeven als u dat wilt.You can provide another name for the SSH username.
    Wachtwoord voor clusteraanmelding voor SSH gebruikenUse cluster login password for SSH Schakel dit selectievakje in als u voor de SSH-gebruiker het wachtwoord wilt gebruiken dat u hebt opgegeven voor Wachtwoord voor clusteraanmeldgegevens.Select this checkbox to use the same password for SSH user as the one you provided for the cluster login user.
    Resource groupResource group Maak een resourcegroep of selecteer een bestaande resourcegroep.Create a resource group or select an existing resource group. Een resourcegroep is een container met Azure-onderdelen.A resource group is a container of Azure components. In dit geval bevat de resourcegroep het HDInsight-cluster en het afhankelijke Azure Storage-account.In this case, the resource group contains the HDInsight cluster and the dependent Azure Storage account.
    LocationLocation Selecteer een Azure-locatie waar u het cluster wilt maken.Select an Azure location where you want to create your cluster. Kies een locatie zo dicht mogelijk bij u in de buurt voor betere prestaties.Choose a location closer to you for better performance.

    HDInsight Linux aan de slag basiswaarden voor cluster opgevenHDInsight Linux get started provide cluster basic values

  4. Selecteer clustertype openen de clusterconfiguratie pagina en geef vervolgens de volgende waarden:Select Cluster type to open the Cluster configuration page, and then provide the following values:

    EigenschapProperty DescriptionDescription
    ClustertypeCluster type Selecteer Hadoop.Select Hadoop
    VersionVersion Selecteer Hadoop 2.7.3 (HDI 3.6)Select Hadoop 2.7.3 (HDI 3.6)

    HDInsight Linux aan de slag basiswaarden voor cluster opgevenHDInsight Linux get started provide cluster basic values

    Selecteer Selecteer en selecteer vervolgens volgende om naar de opslaginstellingen te gaan.Select Select and then select Next to advance to the storage settings.

  5. Uit de opslag tabblad, geeft u de volgende waarden:From the Storage tab, provide the following values:

    EigenschapProperty DescriptionDescription
    Type primaire opslagPrimary storage type In dit artikel Azure storage gebruik van Azure Storage-Blob als het standaardopslagaccount te selecteren.For this article, select Azure storage to use Azure Storage Blob as the default storage account. U kunt ook Azure Data Lake Storage gebruiken als standaardopslag.You can also use Azure Data Lake Storage as the default storage.
    Methode selecterenSelection method Selecteer voor dit artikel Mijn abonnementen om een opslagaccount uit uw Azure-abonnement te gebruiken.For this article, select My subscriptions to use a storage account from your Azure subscription. Als u een opslagaccount uit andere abonnementen wilt gebruiken, selecteert u Toegangssleutel en geeft u vervolgens de toegangssleutel voor dat account op.To use storage account from other subscriptions, select Access key and then provide the access key for that account.
    Selecteer een opslagaccountSelect a Storage account Selecteer selecteert u een opslagaccount naar selecteert u een bestaand opslagaccount of nieuw.Select Select a Storage account to select an existing storage account, or select Create new. Als u een nieuw account maakt, wordt de naam moet tussen 3 en 24 tekens lang en kan alleen cijfers en kleine letters bevatten.If you create a new account, the name must be between 3 and 24 characters in length, and can include numbers and lowercase letters only.

    Accepteer alle overige standaardwaarden en selecteer vervolgens volgende om door te gaan naar de pagina overzicht.Accept all other default values and then select Next to advance to the summary page.

    HDInsight Linux aan de slag waarden voor clusteropslag opgevenHDInsight Linux get started provide cluster storage values

  6. Uit de samenvatting tabblad, controleert u of de waarden die u hebt geselecteerd in de eerdere stappen.From the Summary tab, verify the values you selected in the earlier steps.

    HDInsight Linux aan de slag cluster overzichtHDInsight Linux get started cluster summary

  7. Selecteer Maken.Select Create. Het duurt ongeveer 20 minuten om een cluster te maken.It takes about 20 minutes to create a cluster.

  8. Zodra het cluster is gemaakt, ziet u de overzichtspagina van het cluster in Azure Portal.Once the cluster is created, you see the cluster overview page in the Azure portal.

    Aan de slag met clusterinstellingen in HDInsight op basis van LinuxHDInsight Linux get started cluster settings

    Elk cluster is afhankelijk van een Azure Storage-account of een Azure Data Lake-account.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. Dit wordt het standaardopslagaccount genoemd.It is referred as the default storage account. HDInsight-cluster en het standaardopslagaccount moeten in dezelfde Azure-regio worden geplaatst.HDInsight cluster and its default storage account must be colocated in the same Azure region. Het opslagaccount wordt niet verwijderd wanneer er clusters worden verwijderd.Deleting clusters does not delete the storage account.

    Notitie

    Voor andere methoden voor het maken van cluster en inzicht in de eigenschappen die in deze Quick Start wordt gebruikt, Zie maken van HDInsight-clusters.For other cluster creation methods and understanding the properties used in this quickstart, see Create HDInsight clusters.

Apache Hive-query's uitvoerenRun Apache Hive queries

Apache Hive is het meest populaire onderdeel dat in HDInsight wordt gebruikt.Apache Hive is the most popular component used in HDInsight. Er zijn veel manieren om Hive-taken uit te voeren in HDInsight.There are many ways to run Hive jobs in HDInsight. In deze snelstartgids gebruikt u de Ambari Hive-weergave in de portal.In this quickstart, you use the Ambari Hive view from the portal. Voor andere methoden voor het indienen van Hive-taken raadpleegt u Hive gebruiken in HDInsight.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

  1. Als u Ambari wilt openen, selecteert u Clusterdashboard in de vorige schermafbeelding.To open Ambari, from the previous screenshot, select Cluster Dashboard. U kunt ook bladeren naar https://ClusterName.azurehdinsight.net, waarbij ClusterName is van het cluster dat u in de vorige sectie hebt gemaakt.You can also browse to https://ClusterName.azurehdinsight.net, where ClusterName is the cluster you created in the previous section.

    HDInsight Linux aan de slag clusterdashboardHDInsight Linux get started cluster dashboard

  2. Voer de gebruikersnaam en het wachtwoord voor Hadoop in die u hebt opgegeven tijdens het maken van het cluster.Enter the Hadoop username and password that you specified while creating the cluster. De standaardgebruikersnaam admin.The default username is admin.

  3. Open Hive-weergave zoals weergegeven in de volgende schermafbeelding:Open Hive View as shown in the following screenshot:

    Ambari-weergaven selecterenSelecting Ambari views

  4. Plak in het tabblad QUERY de volgende HiveQL-instructies in het werkblad:In the QUERY tab, paste the following HiveQL statements into the worksheet:

    SHOW TABLES;
    

    HDInsight Hive-weergavenHDInsight Hive views

  5. Selecteer Uitvoeren.Select Execute. Er wordt een tabblad RESULTATEN weergegeven onder het tabblad QUERY met informatie over de taak.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    Nadat de query is voltooid, worden de resultaten van de bewerking weergegeven op het tabblad QUERY.Once the query has finished, the QUERY tab displays the results of the operation. U ziet één tabel met de naam hivesampletable.You shall see one table called hivesampletable. Deze Hive-voorbeeldtabel is bij alle HDInsight-clusters inbegrepen.This sample Hive table comes with all the HDInsight clusters.

    HDInsight Hive-weergavenHDInsight Hive views

  6. Herhaal stap 4 en 5 om de volgende query uit te voeren:Repeat step 4 and step 5 to run the following query:

    SELECT * FROM hivesampletable;
    
  7. U kunt de resultaten van de query ook opslaan.You can also save the results of the query. Selecteer de menuknop aan de rechterkant en geef aan of u de resultaten wilt downloaden als een CSV-bestand of deze wilt opslaan in het opslagaccount dat aan het cluster is gekoppeld.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Resultaat van Hive-query opslaanSave result of Hive query

Nadat u een Hive-taak hebt voltooid, kunt u de resultaten exporteren naar een Azure SQL-database of een SQL Server-database. U kunt ook de resultaten weergeven in Excel.After you have completed a Hive job, you can export the results to Azure SQL database or SQL Server database, you can also visualize the results using Excel. Zie Apache Hive en HiveQL gebruiken met Apache Hadoop in HDInsight voor het analyseren van een voorbeeldbestand van de Apache-log4j voor meer informatie over het gebruik van Hive in HDInsight.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

Resources opschonenClean up resources

Nadat u de Quick Start hebt voltooid, kunt u het cluster verwijdert.After you complete the quickstart, you may want to delete the cluster. Met HDInsight worden uw gegevens opgeslagen in Azure Storage zodat u een cluster veilig kunt verwijderen wanneer deze niet wordt gebruikt.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Voor een HDInsight-cluster worden ook kosten in rekening gebracht, zelfs wanneer het niet wordt gebruikt.You are also charged for an HDInsight cluster, even when it is not in use. Aangezien de kosten voor het cluster vaak zoveel hoger zijn dan de kosten voor opslag, is het financieel gezien logischer clusters te verwijderen wanneer ze niet worden gebruikt.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Notitie

Als u onmiddellijk u doorgaat met het volgende artikel voor meer informatie over het uitvoeren van ETL-bewerkingen met Hadoop in HDInsight, kunt u dat het cluster uitgevoerd.If you are immediately proceeding to the next article to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. Dit komt doordat in de zelfstudie hebt u een Hadoop-cluster opnieuw maken.This is because in the tutorial you have to create a Hadoop cluster again. Als u niet meer via het volgende artikel meteen, moet u nu een het cluster verwijderen.However, if you are not going through the next article right away, you must delete the cluster now.

Het cluster en/of het standaardopslagaccount verwijderenTo delete the cluster and/or the default storage account

  1. Ga terug naar het browsertabblad voor Azure Portal.Go back to the browser tab where you have the Azure portal. U komt terecht op de overzichtspagina voor het cluster.You shall be on the cluster overview page. Selecteer Verwijderen als u alleen het cluster wilt verwijderen maar het standaardopslagaccount wilt behouden.If you only want to delete the cluster but retain the default storage account, select Delete.

    HDInsight delete clusterHDInsight delete cluster

  2. Als u het cluster en het standaardopslagaccount wilt verwijderen, selecteert u de naam van de resourcegroep (gemarkeerd in de vorige schermafbeelding) om de pagina van de resourcegroep te openen.If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Selecteer Resourcegroep verwijderen om de resourcegroep te verwijderen. De groep bevat zowel het cluster als het standaardopslagaccount.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Als u de resourcegroep verwijdert, wordt ook het opslagaccount verwijderd.Note deleting the resource group deletes the storage account. Als u het opslagaccount wilt behouden, verwijdert u alleen het cluster.If you want to keep the storage account, choose to delete the cluster only.

Volgende stappenNext steps

In deze snelstartgids hebt u geleerd hoe u een Linux gebaseerde HDInsight-cluster met behulp van Resource Manager-sjabloon maken en hoe u eenvoudige Hive-query's uitvoert.In this quickstart, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. In het volgende artikel leert u hoe u een ETL-bewerking (Extraction, Transformation, Loading) uitvoert met behulp van Hadoop in HDInsight.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.