Snabb start: skapa Apache Hadoop kluster i Azure HDInsight med Azure PortalQuickstart: Create Apache Hadoop cluster in Azure HDInsight using Azure portal

I den här artikeln får du lära dig hur du skapar Apache Hadoop-kluster i HDInsight med Azure-portalen och sedan kör Apache Hive-jobb i HDInsight.In this article, you learn how to create Apache Hadoop clusters in HDInsight using Azure portal, and then run Apache Hive jobs in HDInsight. De flesta Hadoop-jobb är batchjobb.Most of Hadoop jobs are batch jobs. Du skapar ett kluster, kör vissa jobb och tar sedan bort klustret.You create a cluster, run some jobs, and then delete the cluster. I den här artikeln utför du alla tre aktiviteterna.In this article, you perform all the three tasks.

I den här snabbstarten använder du Azure Portal för att skapa ett HDInsight Hadoop-kluster.In this quickstart, you use the Azure portal to create an HDInsight Hadoop cluster. Du kan också skapa ett kluster med hjälp av Azure Resource Manager-mallen.You can also create a cluster using the Azure Resource Manager template.

För närvarande innehåller HDInsight sju olika klustertyper.Currently HDInsight comes with seven different cluster types. Varje typ av kluster har stöd för olika komponentuppsättningar.Each cluster type supports a different set of components. Samtliga klustertyper stöder Hive.All cluster types support Hive. En lista över komponenter som stöds och som hanteras i HDInsight finns i Vad är nytt i de Apache Hadoop-klusterversioner som tillhandahålls av HDInsight?For a list of supported components in HDInsight, see What's new in the Apache Hadoop cluster versions provided by HDInsight?

Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.If you don't have an Azure subscription, create a free account before you begin.

Skapa ett Apache Hadoop-klusterCreate an Apache Hadoop cluster

I det här avsnittet skapar du ett Hadoop-kluster i HDInsight med hjälp av Azure Portal.In this section, you create a Hadoop cluster in HDInsight using the Azure portal.

  1. Logga in på Azure-portalen.Sign in to the Azure portal.

  2. Från Azure Portal går du till skapa en resurs > analys > HDInsight.From the Azure portal, go to Create a resource > Analytics > HDInsight.

    Skapa ett resurs-HDInsight-klusterCreate a resource HDInsight cluster

  3. Under grundernaanger eller väljer du följande värden:Under Basics, enter or select the following values:

    EgenskapProperty BeskrivningDescription
    PrenumerationSubscription Välj din Azure-prenumeration.Select your Azure subscription.
    ResursgruppResource group Skapa en resursgrupp eller välj en befintlig resursgrupp.Create a resource group or select an existing resource group. En resursgrupp är en container med Azure-komponenter.A resource group is a container of Azure components. I det här fallet innehåller resursgruppen HDInsight-klustret och det beroende Azure Storage-kontot.In this case, the resource group contains the HDInsight cluster and the dependent Azure Storage account.
    KlusternamnCluster name Ange ett namn för Hadoop-klustret.Enter a name for the Hadoop cluster. Eftersom alla kluster i HDInsight delar samma DNS-namnområde måste namnet vara unikt.Because all clusters in HDInsight share the same DNS namespace this name needs to be unique. Namnet kan bestå av upp till 59 tecken, inklusive bokstäver, siffror och bindestreck.The name can consist of up to 59 characters including letters, numbers, and hyphens. De första och sista tecknen i namnet får inte vara bindestreck.The first and last characters of the name cannot be hyphens.
    PlatsLocation Välj en Azure-plats där du vill skapa klustret.Select an Azure location where you want to create your cluster. Välj en plats närmare så får du bättre prestanda.Choose a location closer to you for better performance.
    KlustertypCluster type Välj Välj kluster typ.Select Select cluster type. Välj sedan Hadoop som kluster typ.Then select Hadoop as the cluster type.
    VersionVersion Standard versionen för kluster typen anges.The default version for the cluster type will be specified. Välj i list rutan om du vill ange en annan version.Select from the drop-down list if you wish to specify a different version.
    Användar namn och lösen ord för kluster inloggningCluster login username and password Standard inloggnings namnet är admin. Lösen ordet måste bestå av minst 10 tecken och måste innehålla minst en siffra, en versal och en gemen bokstav, ett icke-alfanumeriskt tecken (förutom tecknen "" ").The default login name is admin. The password must be at least 10 characters in length and must contain at least one digit, one uppercase, and one lower case letter, one non-alphanumeric character (except characters ' " ` ). Se till att du inte anger vanliga lösenord som Pass@word1.Make sure you do not provide common passwords such as "Pass@word1".
    Secure Shell (SSH)-användarnamnSecure Shell (SSH) username Standardanvändarnamnet är sshuser.The default username is sshuser. Du kan ange ett annat namn som SSH-användarnamn.You can provide another name for the SSH username.
    Använd lösen ord för kluster inloggning för SSHUse cluster login password for SSH Markera den här kryss rutan om du vill använda samma lösen ord för SSH-användare som det du angav för kluster inloggnings användaren.Select this check box to use the same password for SSH user as the one you provided for the cluster login user.

    HDInsight Linux kom igång ger kluster grundläggande värdenHDInsight Linux get started provide cluster basic values

    Välj Nästa: lagrings > > för att gå vidare till lagrings inställningarna.Select the Next: Storage >> to advance to the storage settings.

  4. Ange följande värden på fliken lagring :From the Storage tab, provide the following values:

    EgenskapProperty BeskrivningDescription
    Primär lagrings typPrimary storage type Använd standardvärdet Azure Storage.Use the default value Azure Storage.
    Urvals metodSelection method Använd standardvärdet Select i list.Use the default value Select from list.
    Primärt lagringskontoPrimary storage account Använd List rutan för att välja ett befintligt lagrings konto eller Välj Skapa nytt.Use the drop-down list to select an existing storage account, or select Create new. Om du skapar ett nytt konto måste namnet vara mellan 3 och 24 tecken långt och får bara innehålla siffror och gemenerIf you create a new account, the name must be between 3 and 24 characters in length, and can include numbers and lowercase letters only
    ContainerContainer Använd det automatiskt ifyllda värdet.Use the autopopulated value.

    HDInsight Linux kom igång ger kluster lagrings värdenHDInsight Linux get started provide cluster storage values

    Välj fliken Granska + skapa .Select the Review + create tab.

  5. På fliken Granska och skapa kontrollerar du de värden som du valde i de föregående stegen.From the Review + create tab, verify the values you selected in the earlier steps.

    HDInsight Linux kom igång-kluster SammanfattningHDInsight Linux get started cluster summary

  6. Välj Skapa.Select Create. Det tar cirka 20 minuter att skapa ett kluster.It takes about 20 minutes to create a cluster.

När klustret har skapats visas en klusteröversiktssida i Azure Portal.Once the cluster is created, you see the cluster overview page in the Azure portal.

Kluster inställningar för att komma igång med HDInsight LinuxHDInsight Linux get started cluster settings

Varje kluster är beroende av ett Azure Storage-konto eller ett Azure Data Lake-konto.Each cluster has an Azure Storage account or an Azure Data Lake account dependency. Det kallas Storage-konto av standardtyp.It is referred as the default storage account. HDInsight-kluster och dess standard lagrings konto måste samplaceras i samma Azure-region.HDInsight cluster and its default storage account must be colocated in the same Azure region. Lagringskontot tas inte bort om du tar bort kluster.Deleting clusters does not delete the storage account.

Anteckning

För andra metoder för att skapa kluster och förstå de egenskaper som används i den här snabb starten, se skapa HDInsight-kluster.For other cluster creation methods and understanding the properties used in this quickstart, see Create HDInsight clusters.

Köra Apache Hive-frågorRun Apache Hive queries

Apache Hive är den populäraste komponenten som används i HDInsight.Apache Hive is the most popular component used in HDInsight. Det finns många sätt att köra Hive-jobb i HDInsight.There are many ways to run Hive jobs in HDInsight. I den här snabb starten använder du Ambari Hive-vyn från portalen.In this quickstart, you use the Ambari Hive view from the portal. Andra metoder för att skicka Hive-jobb beskrivs i Använda Hive-data i HDInsight.For other methods for submitting Hive jobs, see Use Hive in HDInsight.

  1. Öppna Ambari genom att välja Klusterinstrumentpanel i föregående skärmbild.To open Ambari, from the previous screenshot, select Cluster Dashboard. Du kan också bläddra till https://ClusterName.azurehdinsight.net, där ClusterName är det kluster som du skapade i föregående avsnitt.You can also browse to https://ClusterName.azurehdinsight.net, where ClusterName is the cluster you created in the previous section.

    HDInsight Linux kom igång-kluster instrument panelHDInsight Linux get started cluster dashboard

  2. Ange det Hadoop-användarnamn och -lösenord som du angav när du skapade klustret.Enter the Hadoop username and password that you specified while creating the cluster. Standardanvändarnamnet är admin.The default username is admin.

  3. Öppna Hive-vy så som det visas på följande skärmbild:Open Hive View as shown in the following screenshot:

    Välja Hive-vy från AmbariSelecting Hive View from Ambari

  4. På fliken FRÅGA klistrar du in följande HiveQL-instruktioner i kalkylbladet:In the QUERY tab, paste the following HiveQL statements into the worksheet:

    SHOW TABLES;
    

    HDInsight Hive Visa FrågeredigerarenHDInsight Hive View Query Editor

  5. Välj Kör.Select Execute. Fliken RESULTAT visas under fliken FRÅGA och visar information om jobbet.A RESULTS tab appears beneath the QUERY tab and displays information about the job.

    När frågan har slutförts visas resultatet av åtgärden på fliken FRÅGA.Once the query has finished, the QUERY tab displays the results of the operation. En tabell med namnet hivesampletable bör visas.You shall see one table called hivesampletable. Detta exempel på en Hive-tabell kommer med alla HDInsight-kluster.This sample Hive table comes with all the HDInsight clusters.

    HDInsight Apache Hive Visa resultatHDInsight Apache Hive view results

  6. Upprepa steg 4 och 5 för att köra följande fråga:Repeat step 4 and step 5 to run the following query:

    SELECT * FROM hivesampletable;
    
  7. Du kan också spara frågans resultat.You can also save the results of the query. Välj menyknappen till höger och ange om du vill ladda ned resultatet som en CSV-fil eller lagra den på lagringskontot som är associerat till klustret.Select the menu button on the right, and specify whether you want to download the results as a CSV file or store it to the storage account associated with the cluster.

    Spara resultatet av Apache Hive frågaSave result of Apache Hive query

När du har slutfört ett Hive-jobb kan du exportera resultaten till Azure SQL Database eller SQL Server-databasen och även visualisera resultat i Excel.After you have completed a Hive job, you can export the results to Azure SQL database or SQL Server database, you can also visualize the results using Excel. Mer information om hur du använder Hive i HDInsight finns i Använda Apache Hive och HiveQL med Apache Hadoop i HDInsight för att analysera ett exempel i en Apache log4j-fil.For more information about using Hive in HDInsight, see Use Apache Hive and HiveQL with Apache Hadoop in HDInsight to analyze a sample Apache log4j file.

Rensa resurserClean up resources

När du har slutfört snabb starten kanske du vill ta bort klustret.After you complete the quickstart, you may want to delete the cluster. Med HDInsight lagras dina data i Azure Storage så att du på ett säkert sätt kan ta bort ett kluster när det inte används.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Du debiteras också för ett HDInsight-kluster, även när det inte används.You are also charged for an HDInsight cluster, even when it is not in use. Eftersom avgifterna för klustret är flera gånger större än avgifterna för lagring är det ekonomiskt sett bra att ta bort kluster när de inte används.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Anteckning

Om du omedelbart fortsätter till nästa artikel och lär dig hur du kör ETL-åtgärder med Hadoop i HDInsight, kanske du vill hålla klustret igång.If you are immediately proceeding to the next article to learn how to run ETL operations using Hadoop on HDInsight, you may want to keep the cluster running. Detta beror på att du i självstudien måste skapa ett Hadoop-kluster igen.This is because in the tutorial you have to create a Hadoop cluster again. Men om du inte går igenom nästa artikel direkt måste du ta bort klustret nu.However, if you are not going through the next article right away, you must delete the cluster now.

Ta bort klustret och/eller Storage-kontot av standardtypTo delete the cluster and/or the default storage account

  1. Gå tillbaka till webbläsarfliken där du har Azure-portalen.Go back to the browser tab where you have the Azure portal. Du bör vara på översiktssidan för klustret.You shall be on the cluster overview page. Om du endast vill ta bort klustret men behålla standardlagringskontot kan du klicka på Ta bort.If you only want to delete the cluster but retain the default storage account, select Delete.

    Azure HDInsight ta bort klusterAzure HDInsight delete cluster

  2. Om du vill ta bort klustret och standardlagringskontot öppnar du resursgruppssidan genom att välja resursgruppens namn (markerat i föregående skärmbild).If you want to delete the cluster as well as the default storage account, select the resource group name (highlighted in the previous screenshot) to open the resource group page.

  3. Ta bort resursgruppen som innehåller klustret och standardlagringskontot genom att välja Ta bort resursgrupp.Select Delete resource group to delete the resource group, which contains the cluster and the default storage account. Tänk på att lagringskontot tas bort om du tar bort resursgruppen.Note deleting the resource group deletes the storage account. Välj att bara ta bort klustret om du vill behålla Storage-kontot.If you want to keep the storage account, choose to delete the cluster only.

Nästa stegNext steps

I den här snabb starten har du lärt dig hur du skapar ett Linux-baserat HDInsight-kluster med hjälp av en Resource Manager-mall och hur du utför grundläggande Hive-frågor.In this quickstart, you learned how to create a Linux-based HDInsight cluster using a Resource Manager template, and how to perform basic Hive queries. I nästa artikel får du lära dig hur du utför en extraktions-, transformations- eller inläsningsåtgärd (ETL) med Hadoop på HDInsight.In the next article, you learn how to perform an extract, transform, and load (ETL) operation using Hadoop on HDInsight.