Snabbstart: Skapa Apache Hadoop-kluster i Azure HDInsight med Azure Portal

I den här artikeln får du lära dig hur du skapar Apache Hadoop-kluster i HDInsight med Azure-portalen och sedan kör Apache Hive-jobb i HDInsight. De flesta Hadoop-jobb är batchjobb. Du skapar ett kluster, kör vissa jobb och tar sedan bort klustret. I den här artikeln utför du alla tre aktiviteterna. Detaljerade förklaringar av tillgängliga konfigurationer finns i Konfigurera kluster i HDInsight. Mer information om hur du använder portalen för att skapa kluster finns i Skapa kluster i portalen.

I den här snabbstarten använder du Azure Portal för att skapa ett HDInsight Hadoop-kluster. Du kan också skapa ett kluster med hjälp av Azure Resource Manager-mallen.

HDInsight levereras för närvarande med sju olika klustertyper. Varje typ av kluster har stöd för olika komponentuppsättningar. Samtliga klustertyper stöder Hive. En lista över komponenter som stöds och som hanteras i HDInsight finns i Vad är nytt i de Apache Hadoop-klusterversioner som tillhandahålls av HDInsight?

Om du inte har en Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.

Skapa ett Apache Hadoop-kluster

I det här avsnittet skapar du ett Hadoop-kluster i HDInsight med hjälp av Azure Portal.

  1. Logga in på Azure Portal.

  2. Välj + Skapa en resurs på den översta menyn.

    Skapa ett HDInsight-resurskluster

  3. Välj Analytics > Azure HDInsight för att gå till sidan Skapa HDInsight-kluster.

  4. fliken Grundläggande anger du följande information:

    Egenskap Beskrivning
    Prenumeration I listrutan väljer du den Azure-prenumeration som används för klustret.
    Resursgrupp Välj din befintliga resursgrupp i listrutan eller välj Skapa ny.
    Klusternamn Ange ett globalt unikt namn. Namnet kan bestå av upp till 59 tecken, inklusive bokstäver, siffror och bindestreck. Det första och sista tecknen i namnet får inte vara bindestreck.
    Region I listrutan väljer du en region där klustret skapas. Välj en plats närmare så får du bättre prestanda.
    Klustertyp Välj Välj klustertyp. Välj sedan Hadoop som klustertyp.
    Version Välj en version i listrutan. Använd standardversionen om du inte vet vad du ska välja.
    Användarnamn och lösenord för klusterinloggning Standardinloggningsnamnet är admin. Lösenordet måste innehålla minst 10 tecken och måste innehålla minst en siffra, en versal och en gemen, ett icke-alfanumeriskt tecken (förutom tecknen " " ' ) . Se till att du inte anger vanliga lösenord som Pass@word1.
    Secure Shell (SSH)-användarnamn Standardanvändarnamnet är sshuser. Du kan ange ett annat namn som SSH-användarnamn.
    Använda lösenord för klusterinloggning för SSH Markera den här kryssrutan om du vill använda samma lösenord för SSH-användare som du angav för klusterinloggningsanvändaren.

    Komma igång med HDInsight Linux tillhandahåller grundläggande klustervärden

    Välj nästa: Storage >> att gå vidare till lagringsinställningarna.

  5. Från Storage anger du följande värden:

    Egenskap Beskrivning
    Primär lagringstyp Använd standardvärdet Azure Storage.
    Urvalsmetod Använd standardvärdet Välj från listan.
    Primärt lagringskonto Använd listrutan för att välja ett befintligt lagringskonto eller välj Skapa nytt. Om du skapar ett nytt konto måste namnet vara mellan 3 och 24 tecken långt och får endast innehålla siffror och gemener
    Container Använd det automatiskt iopulerade värdet.

    Komma igång med HDInsight Linux och ange klusterlagringsvärden

    Varje kluster har ett Azure Storage konto, ett Azure Data Lake Gen1eller ett Azure Data Lake Storage Gen2 beroende. Det kallas för standardlagringskontot. HDInsight-klustret och dess standardlagringskonto måste finnas i samma Azure-region. Lagringskontot tas inte bort om du tar bort kluster.

    Välj fliken Granska + skapa.

  6. På fliken Granska + skapa kontrollerar du de värden som du valde i de tidigare stegen.

    Klustersammanfattning för att komma igång med HDInsight Linux

  7. Välj Skapa. Det tar cirka 20 minuter att skapa ett kluster.

    När klustret har skapats visas en klusteröversiktssida i Azure Portal.

    HDInsight Linux komma igång klusterinställningar

Köra Apache Hive-frågor

Apache Hive är den populäraste komponenten som används i HDInsight. Det finns många sätt att köra Hive-jobb i HDInsight. I den här snabbstarten använder du Ambari Hive-vyn från portalen. Andra metoder för att skicka Hive-jobb beskrivs i Använda Hive-data i HDInsight.

Anteckning

Apache Hive View är inte tillgängligt i HDInsight 4.0.

  1. Öppna Ambari genom att välja Klusterinstrumentpanel i föregående skärmbild. Du kan också bläddra till https://ClusterName.azurehdinsight.net platsen där är det kluster som du skapade i föregående ClusterName avsnitt.

    HDInsight Linux – komma igång med klusterinstrumentpanel

  2. Ange det Hadoop-användarnamn och -lösenord som du angav när du skapade klustret. Standardanvändarnamnet är admin.

  3. Öppna Hive-vy så som det visas på följande skärmbild:

    Välja Hive-vy från Ambari

  4. På fliken FRÅGA klistrar du in följande HiveQL-instruktioner i kalkylbladet:

    SHOW TABLES;
    

    Frågeredigeraren för HDInsight Hive-vy

  5. Välj Kör. Fliken RESULTAT visas under fliken FRÅGA och visar information om jobbet.

    När frågan har slutförts visas resultatet av åtgärden på fliken FRÅGA. En tabell med namnet hivesampletable bör visas. Detta exempel på en Hive-tabell kommer med alla HDInsight-kluster.

    HDInsight Apache Hive visa resultat

  6. Upprepa steg 4 och 5 för att köra följande fråga:

    SELECT * FROM hivesampletable;
    
  7. Du kan också spara frågans resultat. Välj menyknappen till höger och ange om du vill ladda ned resultatet som en CSV-fil eller lagra den på lagringskontot som är associerat till klustret.

    Spara resultatet av Apache Hive fråga

När du har slutfört ett Hive-jobb kan du exportera resultatet till en Azure SQL Database eller SQL Server-databas.Du kan också visualisera resultaten med hjälp av Excel. Mer information om hur du använder Hive i HDInsight finns i Använda Apache Hive och HiveQL med Apache Hadoop i HDInsight för att analysera ett exempel i en Apache log4j-fil.

Rensa resurser

När du har slutfört snabbstarten kanske du vill ta bort klustret. Med HDInsight lagras dina data i Azure Storage, så att du på ett säkert sätt kan ta bort ett kluster när det inte används. Du debiteras också för ett HDInsight-kluster, även när det inte används. Eftersom avgifterna för klustret är många gånger högre än avgifterna för lagring är det ekonomiskt meningsfullt att ta bort kluster när de inte används.

Anteckning

Om du omedelbart fortsätter till nästa artikel för att lära dig hur du kör ETL-åtgärder med Hadoop i HDInsight kan det vara bra att hålla klustret igång. Det beror på att du i självstudien måste skapa ett Hadoop-kluster igen. Men om du inte går igenom nästa artikel direkt måste du ta bort klustret nu.

Ta bort klustret och/eller Storage-kontot av standardtyp

  1. Gå tillbaka till webbläsarfliken där du har Azure-portalen. Du bör vara på översiktssidan för klustret. Om du endast vill ta bort klustret men behålla standardlagringskontot kan du klicka på Ta bort.

    Azure HDInsight ta bort kluster

  2. Om du vill ta bort klustret och standardlagringskontot öppnar du resursgruppssidan genom att välja resursgruppens namn (markerat i föregående skärmbild).

  3. Ta bort resursgruppen som innehåller klustret och standardlagringskontot genom att välja Ta bort resursgrupp. Tänk på att lagringskontot tas bort om du tar bort resursgruppen. Välj att bara ta bort klustret om du vill behålla Storage-kontot.

Nästa steg

I den här snabbstarten har du lärt dig hur du skapar ett Linux-baserat HDInsight-kluster med en Resource Manager-mall och hur du utför grundläggande Hive-frågor. I nästa artikel får du lära dig hur du utför en extraktions-, transformations- eller inläsningsåtgärd (ETL) med Hadoop på HDInsight.