Tutorial: Analysieren von Apache Spark-Daten mithilfe von Power BI in HDInsightTutorial: Analyze Apache Spark data using Power BI in HDInsight

In diesem Tutorial erfahren Sie, wie Sie mit Microsoft Power BI Daten in einem Apache Spark-Cluster in Azure HDInsight visualisieren.In this tutorial, you learn how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight.

In diesem Tutorial lernen Sie Folgendes:In this tutorial, you learn how to:

  • Visualisieren von Spark-Daten mithilfe von Power BIVisualize Spark data using Power BI

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.If you don't have an Azure subscription, create a free account before you begin.

VoraussetzungenPrerequisites

Überprüfen der DatenVerify the data

Das im vorherigen Tutorial erstellte Jupyter Notebook enthält Code zum Erstellen einer hvac-Tabelle.The Jupyter Notebook that you created in the previous tutorial includes code to create an hvac table. Diese Tabelle basiert auf der CSV-Datei, die in allen HDInsight Spark-Clustern unter \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv verfügbar ist.This table is based on the CSV file available on all HDInsight Spark clusters at \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Gehen Sie folgendermaßen vor, um die Daten zu überprüfen.Use the following procedure to verify the data.

  1. Fügen Sie im Jupyter Notebook den folgenden Code ein, und drücken Sie UMSCHALT+EINGABETASTE.From the Jupyter notebook, paste the following code, and then press SHIFT + ENTER. Der Code überprüft das Vorhandensein der Tabellen.The code verifies the existence of the tables.

    %%sql
    SHOW TABLES
    

    Die Ausgabe sieht wie folgt aus:The output looks like:

    Anzeigen von Tabellen in Spark

    Wenn Sie das Notebook vor dem Starten dieses Tutorials geschlossen haben, wird hvactemptable bereinigt und ist daher nicht in der Ausgabe enthalten.If you closed the notebook before starting this tutorial, hvactemptable is cleaned up, so it's not included in the output. Nur Hive-Tabellen, die im Metastore gespeichert werden (angegeben durch False in der Spalte isTemporary), sind für die BI-Tools zugänglich.Only Hive tables that are stored in the metastore (indicated by False under the isTemporary column) can be accessed from the BI tools. In diesem Tutorial stellen Sie eine Verbindung mit der erstellten Tabelle hvac her.In this tutorial, you connect to the hvac table that you created.

  2. Fügen Sie den folgenden Code in eine leere Zelle ein, und drücken Sie UMSCHALT+EINGABETASTE.Paste the following code in an empty cell, and then press SHIFT + ENTER. Der Code überprüft die Daten in der Tabelle.The code verifies the data in the table.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Die Ausgabe sieht wie folgt aus:The output looks like:

    Anzeigen von Zeilen aus der hvac-Tabelle in Spark

  3. Wählen Sie im Menü Datei des Notebooks die Option Schließen und Anhalten aus.From the File menu on the notebook, select Close and Halt. Fahren Sie das Notebook herunter, um die Ressourcen freizugeben.Shut down the notebook to release the resources.

Visualisieren der DatenVisualize the data

In diesem Abschnitt verwenden Sie Power BI, um Visualisierungen, Berichte und Dashboards aus den Daten im Spark-Cluster zu erstellen.In this section, you use Power BI to create visualizations, reports, and dashboards from the Spark cluster data.

Erstellen eines Berichts in Power BI DesktopCreate a report in Power BI Desktop

Die ersten Schritte bei der Verwendung von Spark bestehen darin, eine Verbindung mit dem Cluster in Power BI Desktop herzustellen, Daten aus dem Cluster zu laden und eine grundlegende Visualisierung auf der Grundlage dieser Daten zu erstellen.The first steps in working with Spark are to connect to the cluster in Power BI Desktop, load data from the cluster, and create a basic visualization based on that data.

Hinweis

Der in diesem Artikel vorgestellte Connector befindet sich derzeit in der Vorschau.The connector demonstrated in this article is currently in preview. Wenn Sie Feedback abgeben möchten, ist dies über die Power BI-Communitywebsite und Power BI Ideas möglich.Provide any feedback you have through the Power BI Community site or Power BI Ideas.

  1. Öffnen Sie Power BI Desktop.Open Power BI Desktop. Schließen Sie den Begrüßungsbildschirm, wenn er geöffnet ist.Close the start up splash screen if it opens.

  2. Navigieren Sie auf der Registerkarte Home zu Daten abrufen > Mehr.. .From the Home tab, navigate to Get Data > More...

    Abrufen von Daten in Power BI Desktop aus HDInsight Apache SparkGet data into Power BI Desktop from HDInsight Apache Spark

  3. Geben Sie Spark in das Suchfeld ein, wählen Sie Azure HDInsight Spark aus, und wählen Sie dann Verbinden aus.Enter Spark in the search box, select Azure HDInsight Spark, and then select Connect.

    Einlesen von Daten in Power BI aus Apache Spark BIGet data into Power BI from Apache Spark BI

  4. Geben Sie Ihre Cluster-URL (in der Form mysparkcluster.azurehdinsight.net) in das Textfeld Server ein.Enter your cluster URL (in the form mysparkcluster.azurehdinsight.net) in the Server text box.

  5. Wählen Sie unter Datenverbindungsmodus: die Option DirectQuery aus.Under Data connectivity mode, select DirectQuery. Wählen Sie dann OKaus.Then select OK.

    Sie können mit Spark beide Datenkonnektivitätsmodi verwenden.You can use either data connectivity mode with Spark. Wenn Sie „DirectQuery“ verwenden, werden Änderungen in Berichten ohne Aktualisierung des gesamten Datasets wiedergegeben.If you use DirectQuery, changes are reflected in reports without refreshing the entire dataset. Wenn Sie Daten importieren, müssen Sie das Dataset aktualisieren, um die Änderungen zu sehen.If you import data, you must refresh the data set to see changes. Weitere Informationen dazu, wie und wann Sie „DirectQuery“ verwenden, finden Sie unter Verwenden von DirectQuery mit Power BI.For more information on how and when to use DirectQuery, see Using DirectQuery in Power BI.

  6. Geben Sie die Kontoinformationen für die HDInsight-Anmeldung ein, und wählen Sie dann Verbinden aus.Enter the HDInsight login account information, then select Connect. Der Standardkontoname lautet admin.The default account name is admin.

  7. Wählen Sie die Tabelle hvac aus, warten Sie, um eine Vorschau der Daten anzuzeigen, und wählen Sie dann Laden aus.Select the hvac table, wait to see a preview of the data, and then select Load.

    Benutzername und Kennwort des Spark-ClustersSpark cluster user name and password

    Power BI Desktop verfügt nun über alle Informationen, die zum Herstellen einer Verbindung mit dem Spark-Cluster und zum Laden von Daten aus der Tabelle hvac erforderlich sind.Power BI Desktop has the information it needs to connect to the Spark cluster and load data from the hvac table. Die Tabelle und ihre Spalten werden im Bereich Felder angezeigt.The table and its columns are displayed in the Fields pane.

  8. Visualisieren Sie die Abweichung zwischen Zieltemperatur und Ist-Temperatur für jedes Gebäude:Visualize the variance between target temperature and actual temperature for each building:

    1. Wählen Sie im Bereich VISUALISIERUNGEN die Option Flächendiagramm aus.In the VISUALIZATIONS pane, select Area Chart.

    2. Ziehen Sie das Feld BuildingID unter Achse und die Felder ActualTemp und TargetTemp unter Wert.Drag the BuildingID field to Axis, and drag the ActualTemp and TargetTemp fields to Value.

      Erstellen von Spark-Datenvisualisierungen mithilfe von Apache Spark BICreate Spark data visualizations using Apache Spark BI

      Das Diagramm sieht wie folgt aus:The diagram looks like:

      Erstellen von Spark-Datenvisualisierungen mithilfe von Apache Spark BICreate Spark data visualizations using Apache Spark BI

      Standardmäßig werden in der Visualisierung die Summen für ActualTemp und TargetTemp angezeigt.By default the visualization shows the sum for ActualTemp and TargetTemp. Wählen Sie den Pfeil nach unten neben ActualTemp und TargetTemp im Bereich „Visualisierungen“ aus. Sie sehen, dass Summe ausgewählt ist.Select the down arrow next to ActualTemp and TragetTemp in the Visualizations pane, you can see Sum is selected.

    3. Wählen Sie den Pfeil nach unten neben ActualTemp und TargetTemp im Bereich „Visualisierungen“ aus, wählen Sie Durchschnitt aus, um den Durchschnittswert zwischen tatsächlicher und Zieltemperatur für jedes Gebäude zu erhalten.Select the down arrows next to ActualTemp and TragetTemp in the Visualizations pane, select Average to get an average of actual and target temperatures for each building.

      Erstellen von Spark-Datenvisualisierungen mithilfe von Apache Spark BICreate Spark data visualizations using Apache Spark BI

      Ihre Datenvisualisierung sollte ähnlich dem Screenshot aussehen.Your data visualization shall be similar to the one in the screenshot. Bewegen Sie den Cursor über die Visualisierung, um QuickInfos mit relevanten Daten abzurufen.Move your cursor over the visualization to get tool tips with relevant data.

      Erstellen von Spark-Datenvisualisierungen mithilfe von Apache Spark BICreate Spark data visualizations using Apache Spark BI

  9. Navigieren Sie zu Datei > Speichern, geben Sie den Namen BuildingTemperature für die Datei ein, und wählen Sie dann Speichern aus.Navigate to File > Save, enter the name BuildingTemperature for the file, then select Save.

Veröffentlichen des Berichts im Power BI-Dienst (optional)Publish the report to the Power BI Service (optional)

Mit dem Power BI-Dienst können Sie Berichte und Dashboards in Ihrer Organisation freigeben.The Power BI service allows you to share reports and dashboards across your organization. In diesem Abschnitt veröffentlichen Sie zunächst das DataSet und den Bericht.In this section, you first publish the dataset and the report. Dann heften Sie den Bericht an ein Dashboard an.Then, you pin the report to a dashboard. Dashboards werden üblicherweise dazu verwendet, sich auf eine Teilmenge der Daten in einem Bericht zu konzentrieren. Ihr Bericht enthält zwar nur eine Visualisierung, es ist aber dennoch hilfreich, die Schritte durchzugehen.Dashboards are typically used to focus on a subset of data in a report; you have only one visualization in your report, but it's still useful to go through the steps.

  1. Öffnen Sie Power BI Desktop.Open Power BI Desktop.

  2. Klicken Sie auf der Registerkarte Start auf Veröffentlichen.From the Home tab, click Publish.

    Veröffentlichen über Power BI DesktopPublish from Power BI Desktop

  3. Wählen Sie einen Arbeitsbereich für die Veröffentlichung des Datasets und des Berichts aus, und klicken Sie dann auf Auswählen.Select a workspace to publish your dataset and report to, then click Select. In der folgenden Abbildung wird die Standardoption My Workspace (Mein Arbeitsbereich) ausgewählt.In the following image, the default My Workspace is selected.

    Auswählen eines Arbeitsbereichs für die Veröffentlichung des Datasets und des BerichtsSelect workspace to publish dataset and report to

  4. Nachdem die Veröffentlichung abgeschlossen ist, klicken Sie auf Open „BuildingTemperature.pbix“ in Power BI („BuildingTemperature.pbix“ in Power BI öffnen).After the publishing is succeeded, click Open 'BuildingTemperature.pbix' in Power BI.

    Veröffentlichung erfolgreich, zur Eingabe von Anmeldeinformationen klickenPublish success, click to enter credentials

  5. Klicken Sie im Power BI-Dienst auf Anmeldeinformationen eingeben.In the Power BI service, click Enter credentials.

    Eingeben von Anmeldeinformationen im Power BI-DienstEnter credentials in Power BI service

  6. Klicken Sie auf Anmeldeinformationen bearbeiten.Click Edit credentials.

    Bearbeiten von Anmeldeinformationen im Power BI-DienstEdit credentials in Power BI service

  7. Geben Sie die Kontoinformationen für die HDInsight-Anmeldung ein, und klicken Sie auf Anmelden.Enter the HDInsight login account information, and then click Sign in. Der Standardkontoname lautet admin.The default account name is admin.

    Anmelden beim Spark-ClusterSign in to Spark cluster

  8. Navigieren Sie im linken Bereich zu Arbeitsbereiche > Mein Arbeitsbereich > BERICHTE, und klicken Sie auf BuildingTemperature.In the left pane, go to Workspaces > My Workspace > REPORTS, then click BuildingTemperature.

    Bericht unter „Berichte“ im linken BereichReport listed under reports in left pane

    Im linken Bereich sollte unter DATASETS außerdem BuildingTemperature aufgeführt sein.You should also see BuildingTemperature listed under DATASETS in the left pane.

    Das in Power BI Desktop erstellte visuelle Element ist nun im Power BI-Dienst verfügbar.The visual you created in Power BI Desktop is now available in the Power BI service.

  9. Zeigen Sie mit der Maus auf die Visualisierung, und klicken Sie dann auf das Symbol zum Anheften in der rechten oberen Ecke.Hover your cursor over the visualization, and then click the pin icon on the upper right corner.

    Bericht im Power BI-DienstReport in the Power BI service

  10. Wählen Sie „Neues Dashboard“, geben Sie den Namen Building temperature ein, und klicken Sie dann auf Anheften.Select "New dashboard", enter the name Building temperature, then click Pin.

    An neues Dashboard anheftenPin to new dashboard

  11. Klicken Sie im Bericht auf Zum Dashboard wechseln.In the report, click Go to dashboard.

Ihr visuelles Element wird an das Dashboard angeheftet. Sie können weitere visuelle Elemente zum Bericht hinzufügen und sie ans gleiche Dashboard anheften.Your visual is pinned to the dashboard - you can add other visuals to the report and pin them to the same dashboard. Weitere Informationen zu Berichten und Dashboards finden Sie unter Berichte in Power BI und Einführung in Dashboards für Power BI-Designer.For more information about reports and dashboards, see Reports in Power BI and Dashboards in Power BI.

Bereinigen von RessourcenClean up resources

Nach Abschluss des Tutorials kann es ratsam sein, den Cluster zu löschen.After you complete the tutorial, you may want to delete the cluster. Mit HDInsight werden Ihre Daten im Azure-Speicher gespeichert, sodass Sie einen Cluster problemlos löschen können, wenn er nicht verwendet wird.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it is not in use. Für einen HDInsight-Cluster fallen auch dann Gebühren an, wenn er nicht verwendet wird.You are also charged for an HDInsight cluster, even when it is not in use. Da die Gebühren für den Cluster erheblich höher sind als die Kosten für den Speicher, ist es sinnvoll, nicht verwendete Cluster zu löschen.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they are not in use.

Informationen zum Löschen eines Clusters finden Sie unter Löschen eines HDInsight-Clusters mit Ihrem Browser, PowerShell oder der Azure CLI.To delete a cluster, see Delete an HDInsight cluster using your browser, PowerShell, or the Azure CLI.

Nächste SchritteNext steps

In diesem Tutorial haben Sie erfahren, wie Sie mit Microsoft Power BI Daten in einem Apache Spark-Cluster in Azure HDInsight visualisieren.In this tutorial, you learned how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight. Fahren Sie mit dem nächsten Artikel fort, um festzustellen, wie die Daten, die Sie in Spark registriert haben, in ein BI-Analyse-Tool wie Power BI gezogen werden können.Advance to the next article to see how the data you registered in Spark can be pulled into a BI analytics tool such as Power BI.