Zelfstudie: Gegevens van Apache Spark analyseren met Power BI in HDInsightTutorial: Analyze Apache Spark data using Power BI in HDInsight

In deze zelf studie leert u hoe u micro soft power bi kunt gebruiken om gegevens te visualiseren in een Apache Spark cluster in Azure HDInsight.In this tutorial, you learn how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight.

In deze zelfstudie leert u het volgende:In this tutorial, you learn how to:

  • Spark-gegevens visualiseren met behulp van Power BIVisualize Spark data using Power BI

Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.If you don't have an Azure subscription, create a free account before you begin.

VereistenPrerequisites

De gegevens controlerenVerify the data

Het Jupyter Notebook dat u hebt gemaakt in de vorige zelfstudie bevat code voor het maken van een hvac-tabel.The Jupyter Notebook that you created in the previous tutorial includes code to create an hvac table. Deze tabel is gebaseerd op het CSV-bestand dat beschikbaar is op alle HDInsight Spark-clusters op \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv.This table is based on the CSV file available on all HDInsight Spark clusters at \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Gebruik de volgende procedure om de gegevens te controleren.Use the following procedure to verify the data.

  1. Plak de volgende code uit het Jupyter-notebook en druk vervolgens op Shift+Enter.From the Jupyter notebook, paste the following code, and then press SHIFT + ENTER. Deze code controleert of de tabellen bestaan.The code verifies the existence of the tables.

    %%sql
    SHOW TABLES
    

    De uitvoer ziet er als volgt uit:The output looks like:

    Tabellen weergeven in Spark

    Als u het notebook voorafgaand aan deze zelfstudie hebt gesloten, is hvactemptable opgeschoond en wordt deze niet opgenomen in de uitvoer.If you closed the notebook before starting this tutorial, hvactemptable is cleaned up, so it's not included in the output. Alleen Hive-tabellen die zijn opgeslagen in de metastore (aangegeven met False in de kolom isTemporary) zijn toegankelijk vanuit de BI-hulpprogramma's.Only Hive tables that are stored in the metastore (indicated by False under the isTemporary column) can be accessed from the BI tools. In deze zelfstudie maakt u verbinding met de hvac-tabel die u hebt gemaakt.In this tutorial, you connect to the hvac table that you created.

  2. Plak de volgende code in een lege cel en druk op Shift+Enter.Paste the following code in an empty cell, and then press SHIFT + ENTER. De code controleert de gegevens in de tabel.The code verifies the data in the table.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    De uitvoer ziet er als volgt uit:The output looks like:

    Rijen uit de hvac-tabel in Spark weergeven

  3. Klik in het menu File van het notebook op Close and Halt.From the File menu on the notebook, select Close and Halt. Sluit het notebook om de resources vrij te geven.Shut down the notebook to release the resources.

De gegevens visualiserenVisualize the data

In dit gedeelte gebruikt u Power BI om visualisaties, rapporten en dashboards te maken van de gegevens in het Spark-cluster.In this section, you use Power BI to create visualizations, reports, and dashboards from the Spark cluster data.

Een rapport maken in Power BI DesktopCreate a report in Power BI Desktop

De eerste stappen om te werken met Spark zijn verbinding maken met het cluster in Power BI Desktop, gegevens uit het cluster laden en eenvoudige visualisatie maken op basis van die gegevens.The first steps in working with Spark are to connect to the cluster in Power BI Desktop, load data from the cluster, and create a basic visualization based on that data.

Notitie

De connector die in dit artikel wordt gedemonstreerd is momenteel in preview.The connector demonstrated in this article is currently in preview. Eventuele feedback kunt u doorgeven via de site Power BI-Community of via Power BI Ideas.Provide any feedback you have through the Power BI Community site or Power BI Ideas.

  1. Open Power BI Desktop.Open Power BI Desktop. Sluit het opstart scherm als dit wordt geopend.Close the start-up splash screen if it opens.

  2. Ga op het tabblad Start naar gegevens ophalen > meer.. .From the Home tab, navigate to Get Data > More...

    Gegevens van HDInsight Apache Spark overbrengen naar Power BI DesktopGet data into Power BI Desktop from HDInsight Apache Spark

  3. Geef Spark op in het zoekvak, selecteer Azure HDInsight Sparken selecteer vervolgens verbinding maken.Enter Spark in the search box, select Azure HDInsight Spark, and then select Connect.

    Gegevens van Apache Spark BI overbrengen naar Power BIGet data into Power BI from Apache Spark BI

  4. Voer de cluster-URL in (in de vorm mysparkcluster.azurehdinsight.net) in het tekstvak Server .Enter your cluster URL (in the form mysparkcluster.azurehdinsight.net) in the Server text box.

  5. Onder modus voor gegevens connectiviteitselecteert u DirectQuery.Under Data connectivity mode, select DirectQuery. Selecteer vervolgens OK.Then select OK.

    U kunt beide gegevensverbindingsmodi gebruiken met Spark.You can use either data connectivity mode with Spark. Als u DirectQuery gebruikt, worden wijzigingen doorgevoerd in rapporten zonder dat de hele gegevensset wordt vernieuwd.If you use DirectQuery, changes are reflected in reports without refreshing the entire dataset. Als u gegevens importeert, moet u de gegevensset vernieuwen om de wijzigingen te zien.If you import data, you must refresh the data set to see changes. Zie DirectQuery gebruiken in Power BI voor meer informatie over hoe en wanneer u DirectQuery kunt gebruiken.For more information on how and when to use DirectQuery, see Using DirectQuery in Power BI.

  6. Voer de gegevens van het HDInsight-aanmeldings account in en selecteer vervolgens verbinding maken.Enter the HDInsight login account information, then select Connect. De standaardaccountnaam is admin.The default account name is admin.

  7. Selecteer de tabel hvac, wacht tot er een voor beeld van de gegevens wordt weer gegeven en selecteer vervolgens laden.Select the hvac table, wait to see a preview of the data, and then select Load.

    Gebruikersnaam en wachtwoord voor Spark-clusterSpark cluster user name and password

    Power BI Desktop beschikt over de gegevens die nodig zijn om verbinding te maken met het Spark-cluster en om gegevens te laden uit de tabel hvac.Power BI Desktop has the information it needs to connect to the Spark cluster and load data from the hvac table. De tabel en de kolommen worden weergegeven in het deelvenster Velden.The table and its columns are displayed in the Fields pane.

  8. Visualiseer het verschil tussen de gewenste temperatuur en de werkelijke temperatuur voor elk gebouw:Visualize the variance between target temperature and actual temperature for each building:

    1. Selecteer Vlakdiagram in het deelvenster Visualisaties.In the VISUALIZATIONS pane, select Area Chart.

    2. Sleep het veld BuildingID naar As, en sleep de velden ActualTemp en TargetTemp naar Waarde.Drag the BuildingID field to Axis, and drag the ActualTemp and TargetTemp fields to Value.

      kolom met waarden toevoegen toevoegenadd value columns

      Het diagram ziet er zo uit:The diagram looks like:

      (./media/apache-spark-use-bi-tools/apache-spark-bi-area-graph-sum.png "som van grafiek totaal gebied") van ![gebieds grafiek]area graph sum

      De visualisatie bevat standaard de som van ActualTemp en TargetTemp.By default the visualization shows the sum for ActualTemp and TargetTemp. Selecteer de pijl-omlaag naast ActualTemp en TragetTemp in het deel venster visualisaties, u kunt Sum selecteren.Select the down arrow next to ActualTemp and TragetTemp in the Visualizations pane, you can see Sum is selected.

    3. Selecteer de pijl-omlaag naast ActualTemp en TragetTemp in het deel venster visualisaties en selecteer gemiddeld om het gemiddelde van de werkelijke en doel temperaturen voor elk gebouw te verkrijgen.Select the down arrows next to ActualTemp and TragetTemp in the Visualizations pane, select Average to get an average of actual and target temperatures for each building.

      gemiddelde van waardenaverage of values

      De gegevensvisualisatie moet er ongeveer uitzien zoals in de schermafbeelding.Your data visualization shall be similar to the one in the screenshot. Beweeg de cursor over de visualisatie om knopinfo met relevante gegevens weer te geven.Move your cursor over the visualization to get tool tips with relevant data.

      grafiek vlak grafiekarea graph

  9. Navigeer naar File > Save, voer de naam BuildingTemperature in voor het bestand en selecteer vervolgens Opslaan.Navigate to File > Save, enter the name BuildingTemperature for the file, then select Save.

Het rapport publiceren naar de Power BI-service (optioneel)Publish the report to the Power BI Service (optional)

Met behulp van de Power BI-service kunt u rapporten en dashboards delen binnen uw organisatie.The Power BI service allows you to share reports and dashboards across your organization. In dit gedeelte gaat u eerst de gegevensset en het rapport publiceren.In this section, you first publish the dataset and the report. Vervolgens maakt u het rapport vast aan een dashboard.Then, you pin the report to a dashboard. Dash boards worden doorgaans gebruikt om zich te richten op een subset van gegevens in een rapport.Dashboards are typically used to focus on a subset of data in a report. U hebt slechts één visualisatie in het rapport, maar het is wel handig om de stappen door te lopen.You have only one visualization in your report, but it's still useful to go through the steps.

  1. Open Power BI Desktop.Open Power BI Desktop.

  2. Klik op het tabblad Startpagina op Publiceren.From the Home tab, click Publish.

    Publiceren vanuit Power BI DesktopPublish from Power BI Desktop

  3. Selecteer de werkruimte waarnaar u de gegevensset wilt publiceren en rapporteren, en klik vervolgens op Selecteren.Select a workspace to publish your dataset and report to, then click Select. In de volgende afbeelding is de standaardwerkruimte Mijn werkruimte geselecteerd.In the following image, the default My Workspace is selected.

    Werkruimte selecteren voor publiceren en rapporteren van gegevenssetSelect workspace to publish dataset and report to

  4. Nadat het publiceren is voltooid, klikt u op 'BuildingTemperature.pbix' openen in Power BI.After the publishing is succeeded, click Open 'BuildingTemperature.pbix' in Power BI.

    Publiceren voltooid, klikken om referenties in te voerenPublish success, click to enter credentials

  5. Klik in de Power BI-service op Referenties invoeren.In the Power BI service, click Enter credentials.

    Referenties invoeren in Power BI-serviceEnter credentials in Power BI service

  6. Klik op Referenties bewerken.Click Edit credentials.

    Referenties bewerken in Power BI-serviceEdit credentials in Power BI service

  7. Voer de gegevens voor het aanmeldingsaccount van HDInsight in en klik vervolgens op Aanmelden.Enter the HDInsight login account information, and then click Sign in. De standaardaccountnaam is admin.The default account name is admin.

    Aanmelden bij Spark-clusterSign in to Spark cluster

  8. Ga in het linkerdeelvenster naar Werkruimten > Mijn werkruimte > RAPPORTEN en klik op BuildingTemperature.In the left pane, go to Workspaces > My Workspace > REPORTS, then click BuildingTemperature.

    Rapport vermeld onder Rapporten in het linkerdeelvensterReport listed under reports in left pane

    Ook moet BuildingTemperature worden vermeld GEGEVENSSETS in het linkerdeelvenster.You should also see BuildingTemperature listed under DATASETS in the left pane.

    De visualisatie die u hebt gemaakt in Power BI Desktop is nu beschikbaar in de Power BI-service.The visual you created in Power BI Desktop is now available in the Power BI service.

  9. Beweeg de cursor over de visualisatie en klik vervolgens op de speld in de rechterbovenhoek.Hover your cursor over the visualization, and then click the pin icon on the upper right corner.

    Rapport in de Power BI-serviceReport in the Power BI service

  10. Selecteer 'Nieuw dashboard', voer de naam Building temperature in en klik vervolgens op Vastmaken.Select "New dashboard", enter the name Building temperature, then click Pin.

    Vastmaken aan nieuw dashboardPin to new dashboard

  11. Klik in het rapport op Naar dashboard.In the report, click Go to dashboard.

De visualisatie wordt vastgemaakt aan het dashboard. U kunt andere visualisaties toevoegen aan het rapport en deze aan hetzelfde dashboard vastmaken.Your visual is pinned to the dashboard - you can add other visuals to the report and pin them to the same dashboard. Zie Rapporten in Power BI en Dashboards in Power BI voor meer informatie over rapporten en dashboards.For more information about reports and dashboards, see Reports in Power BI and Dashboards in Power BI.

Resources opschonenClean up resources

Nadat u de zelfstudie hebt voltooid, kunt u het cluster verwijderen.After you complete the tutorial, you may want to delete the cluster. Met HDInsight worden uw gegevens opgeslagen in Azure Storage, zodat u een cluster veilig kunt verwijderen wanneer deze niet in gebruik is.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it isn't in use. U betaalt ook voor een HDInsight-cluster, zelfs wanneer het niet in gebruik is.You're also charged for an HDInsight cluster, even when it isn't in use. Omdat de kosten voor het cluster veel keren meer zijn dan de kosten voor opslag, is het economisch zinvol om clusters te verwijderen wanneer ze niet worden gebruikt.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use.

Als u een cluster wilt verwijderen, raadpleegt u een HDInsight-cluster verwijderen met behulp van uw browser, Power shell of de Azure cli.To delete a cluster, see Delete an HDInsight cluster using your browser, PowerShell, or the Azure CLI.

Volgende stappenNext steps

In deze zelf studie hebt u geleerd hoe u micro soft power bi kunt gebruiken om gegevens te visualiseren in een Apache Spark cluster in Azure HDInsight.In this tutorial, you learned how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight. Ga naar het volgende artikel om te zien hoe de gegevens die u hebt geregistreerd in Spark kunnen worden overgebracht naar een BI-hulpprogramma voor analyse zoals Power BI.Advance to the next article to see how the data you registered in Spark can be pulled into a BI analytics tool such as Power BI.