Snabbstart: Skapa Apache Spark kluster i Azure HDInsight med Azure Portal

I den här snabbstarten använder du Azure Portal för att skapa ett Apache Spark kluster i Azure HDInsight. Sedan skapar du en Jupyter Notebook och använder den för att köra Spark-SQL frågor mot Apache Hive tabeller. Azure HDInsight är en hanterad analystjänst med fullständigt spektrum med öppen källkod för företag. Det Apache Spark ramverket för HDInsight möjliggör snabb dataanalys och klusterberäkning med hjälp av minnesinaktiv bearbetning. Jupyter Notebook kan du interagera med dina data, kombinera kod med markdown-text och göra enkla visualiseringar.

Detaljerade förklaringar av tillgängliga konfigurationer finns i Konfigurera kluster i HDInsight. Mer information om hur du använder portalen för att skapa kluster finns i Skapa kluster i portalen.

Om du använder flera kluster tillsammans bör du skapa ett virtuellt nätverk, och om du använder ett Spark-kluster bör du också använda Hive Warehouse Connector. Mer information finns i Planera ett virtuellt nätverk för Azure HDInsight och Integrera Apache Spark och Apache Hive med Hive Warehouse Connector.

Viktigt

Fakturering för HDInsight-kluster sker proportionerligt per minut, oavsett om du använder dem eller inte. Se till att du tar bort dina kluster när du är klar med dem. Mer information finns i avsnittet Rensa resurser i den här artikeln.

Förutsättningar

Ett Azure-konto med en aktiv prenumeration. Skapa ett konto utan kostnad.

Skapa ett Apache Spark-kluster i HDInsight

Du använder Azure Portal för att skapa ett HDInsight-kluster som använder Azure Storage-blobar som klusterlagring. Mer information om att använda Data Lake Storage Gen2 finns i Snabbstart: Konfigurera kluster i HDInsight.

  1. Logga in på Azure-portalen.

  2. Välj + Skapa en resurs på den översta menyn.

    Azure Portal skapa en resurs urce" border="true":::

  3. Välj Analytics > Azure HDInsight för att gå till sidan Skapa HDInsight-kluster.

  4. fliken Grundläggande anger du följande information:

    Egenskap Beskrivning
    Prenumeration I listrutan väljer du den Azure-prenumeration som används för klustret.
    Resursgrupp Välj din befintliga resursgrupp i listrutan eller välj Skapa ny.
    Klusternamn Ange ett globalt unikt namn.
    Region I listrutan väljer du en region där klustret skapas.
    Klustertyp Välj Välj klustertyp för att öppna en lista. I listan väljer du Spark.
    Klusterversion Det här fältet fylls i automatiskt med standardversionen när klustertypen har valts.
    Användarnamn för klusterinloggning Ange användarnamnet för kluster-inloggningen. Standardnamnet är admin. Du använder det här kontot för att logga in Jupyter Notebook senare i snabbstarten.
    Lösenord för klusterinloggning Ange lösenordet för klusterinloggningen:
    Secure Shell (SSH)-användarnamn Ange SSH-användarnamnet. SSH-användarnamnet som användes för den här snabbstarten är sshuser. Som standard delar här kontot samma lösenord som kontot användarnamn för klusterinloggning.

    Skärmbild som visar Skapa H D Insight-kluster med fliken Grundläggande inställningar markerad.

    Välj Nästa: Storage >> att fortsätta till Storage sidan.

  5. Under Lagring, ange följande värden:

    Egenskap Beskrivning
    Primär lagringstyp Använd standardvärdet Azure Storage.
    Urvalsmetod Använd standardvärdet Välj från listan.
    Primärt lagringskonto Använd det automatiskt ifyllda värdet.
    Container Använd det automatiskt ifyllda värdet.

    Skärmbild som visar Skapa H D Insight-kluster Storage fliken markerad.

    Välj Granska + skapa för att fortsätta.

  6. Under Granska + skapa väljer du Skapa. Det tar cirka 20 minuter att skapa klustret. Klustret måste skapas innan du kan fortsätta till nästa session.

Om du får problem med att skapa HDInsight-kluster kan det vara så att du inte har rätt behörighet för att göra det. Mer information finns i åtkomstkravkontrollen.

Skapa en Jupyter Notebook

Jupyter Notebook är en interaktiv anteckningsboksmiljö som stöder flera olika datorspråk. Du kan använda anteckningsboken för att interagera med dina data, kombinera kod med markdown-text och utföra enkla visualiseringar.

  1. Från en webbläsare går du till https://CLUSTERNAME.azurehdinsight.net/jupyter , där är namnet på CLUSTERNAME klustret. Ange autentiseringsuppgifterna för klustret om du uppmanas att göra det.

  2. Välj Ny > PySpark för att skapa en notebook-dator.

    Skapa en Jupyter Notebook för att köra en interaktiv Spark-SQL fråga

    En ny anteckningsbok skapas och öppnas med namnet Untitled(Untitled.pynb).

Köra Apache Spark SQL utdrag

SQL (Structured Query Language) är det vanligaste språket för frågor och definition av data. Spark SQL fungerar som ett tillägg till Apache Spark för bearbetning av strukturerade data med den välbekanta SQL-syntaxen.

  1. Verifiera att kerneln är klar. Kerneln är klar när du ser en tom cirkel bredvid kernelnamnet i den bärbara datorn. En fylld cirkel anger att kerneln är upptagen.

    Skärmbild som visar ett Jupyter-fönster med en PySpark-indikator. ark indicator." border="true":::

    När du startar den bärbara datorn för första gången utför kerneln några uppgifter i bakgrunden. Vänta tills kerneln är klar.

  2. Klistra in följande kod i en tom cell och tryck sedan på SKIFT+RETUR för att köra koden. Kommandot listar Hive-tabellerna i klustret:

    %%sql
    SHOW TABLES
    

    När du använder en Jupyter Notebook med ditt HDInsight-kluster får du en förinställning som du kan använda för att köra Hive-frågor med sqlContext Spark SQL. %%sql anger att Jupyter Notebook ska använda den förinställda sqlContext när Hive-frågan ska köras. Frågan hämtar de översta 10 raderna från en Hive-tabell (hivesampletable) som medföljer alla HDInsight-kluster som standard. Det tar ungefär 30 sekunder att få resultatet. Utdata ser ut så här:

    Skärmbild som visar ett Jupyter-fönster för anteckningsboken som skapades i den här snabbstarten. är snabbstart." border="true":::

    Varje gång du kör en fråga i Jupyter visar fönsterrubriken i webbläsaren statusen (Upptagen) tillsammans med anteckningsbokens titel. Du ser även en fylld cirkel bredvid PySpark-texten i det övre högra hörnet.

  3. Kör ytterligare en fråga för att visa data i hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Skärmen bör uppdateras så att frågeresultatet visas.

    Hive-frågeutdata i HDInsight Insight" border="true":::

  4. Välj Stäng och stoppa på anteckningsbokens Arkiv-meny. När du stänger anteckningsboken frigörs klusterresurserna.

Rensa resurser

HDInsight sparar dina data i Azure Storage eller Azure Data Lake Storage, så att du på ett säkert sätt kan ta bort ett kluster när det inte används. Du debiteras också för ett HDInsight-kluster, även när det inte används. Eftersom avgifterna för klustret är många gånger högre än avgifterna för lagring är det ekonomiskt meningsfullt att ta bort kluster när de inte används. Om du planerar att arbeta med självstudierna i Nästa steg direkt, kan du vilja behålla klustret.

Växla tillbaka till Azure Portal och välj Ta bort.

Azure Portal ett HDInsight-kluster" border="true":::

Du kan också välja resursgruppnamnet för att öppna resursgruppsidan. Välj sedan Ta bort resursgrupp. Genom att ta bort resursgruppen tar du bort både HDInsight-klustret och standardlagringskontot.

Nästa steg

I den här snabbstarten har du lärt dig hur du skapar ett Apache Spark-kluster i HDInsight och kör en grundläggande Spark SQL fråga. Gå vidare till nästa självstudie och lär dig hur du använder ett HDInsight-kluster för att köra interaktiva frågor på exempeldata.