Quickstart: Apache Spark-cluster maken in Azure HDInsight met behulp van Azure portalQuickstart: Create Apache Spark cluster in Azure HDInsight using Azure portal

Leer hoe u een Apache Spark-cluster maakt in Azure HDInsight en hoe u Spark SQL-query's uitvoert op Hive-tabellen.Learn how to create Apache Spark cluster in Azure HDInsight, and how to run Spark SQL queries against Hive tables. Apache Spark maakt het mogelijk om snelle gegevensanalyses en clusterberekeningen uit te voeren met behulp van verwerking in het geheugen.Apache Spark enables fast data analytics and cluster computing using in-memory processing. Zie voor informatie over Apache Spark in HDInsight Overzicht: Apache Spark in Azure HDInsight.For information on Spark on HDInsight, see Overview: Apache Spark on Azure HDInsight.

In deze snelstartgids gebruikt u Azure Portal voor het maken van een Spark-cluster in HDInsight.In this quickstart, you use the Azure portal to create an HDInsight Spark cluster. Het cluster maakt gebruik van Azure Storage Blobs als de clusteropslag.The cluster uses Azure Storage Blobs as the cluster storage. Zie voor informatie over het gebruik van Data Lake Storage Gen2 Snelstart: clusters instellen in HDInsight.For more information on using Data Lake Storage Gen2, see Quickstart: Set up clusters in HDInsight.

Belangrijk

HDInsight-clusters worden pro rato per minuut gefactureerd, ongeacht of u er wel of niet gebruik van maakt.Billing for HDInsight clusters is prorated per minute, whether you are using them or not. Verwijder uw cluster daarom als u er klaar mee bent.Be sure to delete your cluster after you have finished using it. Zie voor meer informatie de sectie Resources opschonen van dit artikel.For more information, see the Clean up resources section of this article.

Als u geen abonnement op Azure hebt, maakt u een gratis account voordat u begint.If you don't have an Azure subscription, create a free account before you begin.

Een HDInsight Spark-cluster makenCreate an HDInsight Spark cluster

  1. Selecteer in Azure Portal Een resource maken > Analyses > HDInsight.In the Azure portal, select Create a resource > Analytics > HDInsight.

    HDInsight in Azure PortalHDInsight on Azure portal

  2. Geef onder Basis de volgende waarden op:Under Basics, provide the following values:

    EigenschapProperty DescriptionDescription
    ClusternaamCluster name Geef een naam op voor het HDInsight Spark-cluster.Give a name to your HDInsight Spark cluster. De clusternaam die we gebruiken voor deze snelstartgids is myspark20180403.The cluster name used for this quickstart is myspark20180403.
    AbonnementSubscription Kies in de vervolgkeuzelijst een Azure-abonnement voor dit cluster.From the drop-down, select an Azure subscription used for this cluster. Het abonnement dat we gebruiken voor deze snelstartgids is <Azure-abonnement.The subscription used for this quickstart is <Azure subscription.
    ClustertypeCluster type Vouw het item uit, selecteer vervolgens Spark als het clustertype en geef de versie van het Spark-cluster op.Expand the item, and then select Spark as the cluster type, and specify the Spark cluster version.
    Select HDInsight cluster type
    Gebruikersnaam voor clusteraanmeldgegevensCluster login username Voer de gebruikersnaam voor aanmelding bij het cluster in.Enter the cluster login username. De standaardnaam is admin. U gebruikt dit account om u verderop in de snelstartgids aan te melden bij het Jupyter-notebook.The default name is admin. You use this account to login in to the Jupyter notebook later in the quickstart.
    Wachtwoord voor clusteraanmeldgegevensCluster login password Voer het wachtwoord voor aanmelding bij het cluster in.Enter the cluster login password.
    SSH-gebruikersnaam (Secure Shell)Secure Shell (SSH) username Voer de SSH-gebruikersnaam in.Enter the SSH username. De SSH-gebruikersnaam voor deze snelstartgids is sshuser.The SSH username used for this quickstart is sshuser. De standaardinstelling is dat voor dit account hetzelfde wachtwoord wordt gebruikt als voor Gebruikersnaam voor clusteraanmeldgegevens.By default, this account shares the same password as the Cluster Login username account.
    ResourcegroepResource group Geef aan of u een nieuwe resourcegroep wilt maken of een bestaande groep wilt gebruiken.Specify whether you want to create a new resource group or use an existing one. Een resourcegroep is een container met gerelateerde resources voor een Azure-oplossing.A resource group is a container that holds related resources for an Azure solution. De naam van de resourcegroep die we gebruiken voor deze snelstartgids is myspark20180403rg.The resource group name used for this quickstart is myspark20180403rg.
    LocationLocation Selecteer een locatie voor de resourcegroep.Select a location for the resource group. De sjabloon gebruikt deze locatie voor het maken van het cluster en als standaardclusteropslag.The template uses this location for creating the cluster as well as for the default cluster storage. De locatie voor deze snelstart is US - oost 2.The location used for this quickstart is East US 2.

    HDInsight Spark-cluster maken - basisconfiguratieCreate HDInsight Spark cluster basic configurations

    Selecteer Volgende om naar de pagina Opslag te gaan.Select Next to continue to the Storage page.

  3. Geef onder Opslag de volgende waarden op:Under Storage, provide the following values:

    • Selecteer een opslagaccount: selecteer Nieuw en geef vervolgens een naam op voor het nieuwe opslagaccount.Select a Storage account: select Create new, and then give a name to the new storage account. De naam van het opslagaccount dat we gebruiken voor deze snelstartgids is myspark20180403store.The storage account name used for this quickstart is myspark20180403store.

      HDInsight Spark-cluster maken - opslagconfiguratieCreate HDInsight Spark cluster storage configurations

      Notitie

      In de schermafbeelding staat Bestaande selecteren.On the screenshot, it shows Select existing. De koppeling heeft achtereenvolgens de naam Nieuw en Bestaande selecteren.The link toggles between Create new and Select existing.

      De standaardcontainer heeft een standaardnaam.The Default container has a default name. U kunt deze naam desgewenst wijzigen.You can change the name if you want.

      Selecteer Volgende om naar de pagina Overzicht te gaan.Select Next to continue to the Summary page.

  4. Selecteer Maken op het tabblad Overzicht.On Summary, select Create. Het duurt ongeveer 20 minuten om het cluster te maken.It takes about 20 minutes to create the cluster. Het cluster moet zijn gemaakt voordat u verder kunt gaan met de volgende sessie.The cluster must be created before you can proceed to the next session.

Als u een probleem ondervindt met het maken van HDInsight-clusters, beschikt u mogelijk niet over de juiste machtigingen om dit te doen.If you run into an issue with creating HDInsight clusters, it could be that you do not have the right permissions to do so. Zie Vereisten voor toegangsbeheer voor meer informatie.For more information, see Access control requirements.

Een Jupyter-notebook makenCreate a Jupyter notebook

Jupyter Notebook is een interactieve notitieblokomgeving die ondersteuning biedt voor verschillende programmeertalen.Jupyter Notebook is an interactive notebook environment that supports various programming languages. Via het notitieblok kunt u interactie hebben met uw gegevens, code combineren met markdown-tekst en eenvoudige visualisaties uitvoeren.The notebook allows you to interact with your data, combine code with markdown text and perform simple visualizations.

  1. Open de Azure Portal.Open the Azure portal.

  2. Selecteer HDInsight-clusters en selecteer vervolgens het cluster dat u hebt gemaakt.Select HDInsight clusters, and then select the cluster you created.

    HDInsight-cluster openen in Azure Portal

  3. Selecteer Clusterdashboard in het portal en selecteer vervolgens Jupyter Notebook.From the portal, select Cluster dashboards, and then select Jupyter Notebook. Voer de aanmeldingsreferenties voor het cluster in als u daarom wordt gevraagd.If prompted, enter the cluster login credentials for the cluster.

    Jupyter Notebook openen om de interactieve Spark SQL-query uit te voerenOpen Jupyter Notebook to run interactive Spark SQL query

  4. Selecteer Nieuw > PySpark om een notebook te maken.Select New > PySpark to create a notebook.

    Jupyter Notebook maken om de interactieve Spark SQL-query uit te voerenCreate a Jupyter Notebook to run interactive Spark SQL query

    Er wordt een nieuwe notebook gemaakt en geopend met de naam Untitled (Untitled.pynb).A new notebook is created and opened with the name Untitled(Untitled.pynb).

Spark SQL-instructies uitvoerenRun Spark SQL statements

SQL (Structured Query Language) is de meest voorkomende en gebruikte taal voor het uitvoeren van query's en het definiƫren van gegevens.SQL (Structured Query Language) is the most common and widely used language for querying and defining data. Spark SQL fungeert als een uitbreiding van Apache Spark voor het verwerken van gestructureerde gegevens, met behulp van de bekende SQL-syntaxis.Spark SQL functions as an extension to Apache Spark for processing structured data, using the familiar SQL syntax.

  1. Controleer of de kernel gereed is.Verify the kernel is ready. Wanneer u een lege cirkel naast de naam van de kernel in de notebook ziet, is de kernel gereed.The kernel is ready when you see a hollow circle next to the kernel name in the notebook. Gevulde cirkel geeft aan dat de kernel bezet is.Solid circle denotes that the kernel is busy.

    Hive-query in HDInsight SparkHive query in HDInsight Spark

    Wanneer u de notebook voor het eerst start, voert de kernel enkele taken in de achtergrond uit.When you start the notebook for the first time, the kernel performs some tasks in the background. Wacht tot de kernel gereed is.Wait for the kernel to be ready.

  2. Plak de volgende code in een lege cel en druk op Shift+Enter om de code uit te voeren.Paste the following code in an empty cell, and then press SHIFT + ENTER to run the code. Met de opdracht worden de Hive-tabellen in het cluster weergegeven:The command lists the Hive tables on the cluster:

    %%sql
    SHOW TABLES
    

    Als u een Jupyter Notebook gebruikt dat is geconfigureerd voor uw HDInsight Spark-cluster, krijgt u een vooraf ingestelde sqlContext waarmee u Hive-query's kunt uitvoeren met behulp van Apache Spark SQL.When you use a Jupyter Notebook with your HDInsight Spark cluster, you get a preset sqlContext that you can use to run Hive queries using Spark SQL. %%sql instrueert Jupyter Notebook gebruik te maken van de vooraf ingestelde sqlContext om de Hive-query uit te voeren.%%sql tells Jupyter Notebook to use the preset sqlContext to run the Hive query. De query haalt de bovenste tien rijen op uit een Hive-tabel (hivesampletable) die standaard worden meegeleverd met alle HDInsight-clusters.The query retrieves the top 10 rows from a Hive table (hivesampletable) that comes with all HDInsight clusters by default. Het duurt ongeveer 30 seconden om de resultaten op te halen.It takes about 30 seconds to get the results. De uitvoer ziet er als volgt uit:The output looks like:

    Hive-query in HDInsight SparkHive query in HDInsight Spark

    Telkens wanneer u in Jupyter een query uitvoert, toont de venstertitel van uw webbrowser de status (Bezet) en de notebooktitel.Every time you run a query in Jupyter, your web browser window title shows a (Busy) status along with the notebook title. Ook ziet u een gevulde cirkel naast de PySpark-tekst in de rechterbovenhoek.You also see a solid circle next to the PySpark text in the top-right corner.

  3. Voer een andere query uit om de gegevens in hivesampletable te zien.Run another query to see the data in hivesampletable.

    %%sql
    SELECT * FROM hivesampletable LIMIT 10
    

    Het scherm wordt vernieuwd om de query-uitvoer weer te geven.The screen shall refresh to show the query output.

    Uitvoer van Hive-query in HDInsight SparkHive query output in HDInsight Spark

  4. Klik in het menu File van het notebook op Close and Halt.From the File menu on the notebook, select Close and Halt. Als de notebook wordt afgesloten, komen de clusterbronnen vrij.Shutting down the notebook releases the cluster resources.

Resources opschonenClean up resources

Met HDInsight worden uw gegevens opgeslagen in Azure Storage of Azure Data Lake Storage, zodat u een cluster veilig kunt verwijderen wanneer dit niet wordt gebruikt.HDInsight saves your data in Azure Storage or Azure Data Lake Storage, so you can safely delete a cluster when it is not in use. Voor een HDInsight-cluster worden ook kosten in rekening gebracht, zelfs wanneer het niet wordt gebruikt.You are also charged for an HDInsight cluster, even when it is not in use. Aangezien de kosten voor het cluster vaak zoveel hoger zijn dan de kosten voor opslag, is het financieel gezien logischer clusters te verwijderen wanneer ze niet worden gebruikt.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use. Als u direct verder wilt met de zelfstudie die wordt vermeld bij Volgende stappen, is het beter om het cluster te behouden.If you plan to work on the tutorial listed in Next steps immediately, you might want to keep the cluster.

Ga terug naar Azure Portal en selecteer Verwijderen.Switch back to the Azure portal, and select Delete.

Een HDInsight-cluster verwijderenDelete an HDInsight cluster

U kunt ook de naam van de resourcegroep selecteren om de pagina van de resourcegroep te openen en vervolgens Resourcegroep verwijderen selecteren.You can also select the resource group name to open the resource group page, and then select Delete resource group. Als u de resourcegroep verwijdert, verwijdert u zowel het HDInsight Spark-cluster als het standaardopslagaccount.By deleting the resource group, you delete both the HDInsight Spark cluster, and the default storage account.

Volgende stappenNext steps

In deze snelstart hebt u geleerd hoe u een HDInsight Spark-cluster maakt en een eenvoudige Spark SQL-query uitvoert.In this quickstart, you learned how to create an HDInsight Spark cluster and run a basic Spark SQL query. Ga naar de volgende zelfstudie voor informatie over het gebruik van een HDInsight Spark-cluster om interactieve query's uit te voeren op voorbeeldgegevens.Advance to the next tutorial to learn how to use an HDInsight Spark cluster to run interactive queries on sample data.