Tutorial: Analysieren von Apache Spark-Daten mithilfe von Power BI in HDInsight

In diesem Tutorial erfahren Sie, wie Sie mit Microsoft Power BI Daten in einem Apache Spark-Cluster in Azure HDInsight visualisieren.

In diesem Tutorial lernen Sie Folgendes:

  • Visualisieren von Spark-Daten mithilfe von Power BI

Wenn Sie kein Azure-Abonnement besitzen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.

Voraussetzungen

Überprüfen der Daten

Das im vorherigen Tutorial erstellte Jupyter Notebook enthält Code zum Erstellen einer hvac-Tabelle. Diese Tabelle basiert auf der CSV-Datei, die in allen HDInsight Spark-Clustern unter \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv verfügbar ist. Gehen Sie folgendermaßen vor, um die Daten zu überprüfen.

  1. Fügen Sie im Jupyter Notebook den folgenden Code ein, und drücken Sie UMSCHALT+EINGABETASTE. Der Code überprüft das Vorhandensein der Tabellen.

    %%sql
    SHOW TABLES
    

    Die Ausgabe sieht wie folgt aus:

    Screenshot mit Tabellen in Spark.

    Wenn Sie das Notebook vor dem Starten dieses Tutorials geschlossen haben, wird hvactemptable bereinigt und ist daher nicht in der Ausgabe enthalten. Nur Hive-Tabellen, die im Metastore gespeichert werden (angegeben durch False in der Spalte isTemporary), sind für die BI-Tools zugänglich. In diesem Tutorial stellen Sie eine Verbindung mit der erstellten Tabelle hvac her.

  2. Fügen Sie den folgenden Code in eine leere Zelle ein, und drücken Sie UMSCHALT+EINGABETASTE. Der Code überprüft die Daten in der Tabelle.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Die Ausgabe sieht wie folgt aus:

    Screenshot mit Zeilen aus der Tabelle „Hvac“ in Spark.

  3. Wählen Sie im Menü Datei des Notebooks die Option Schließen und Anhalten aus. Fahren Sie das Notebook herunter, um die Ressourcen freizugeben.

Visualisieren der Daten

In diesem Abschnitt verwenden Sie Power BI, um Visualisierungen, Berichte und Dashboards aus den Daten im Spark-Cluster zu erstellen.

Erstellen eines Berichts in Power BI Desktop

Die ersten Schritte bei der Verwendung von Spark bestehen darin, eine Verbindung mit dem Cluster in Power BI Desktop herzustellen, Daten aus dem Cluster zu laden und eine grundlegende Visualisierung auf der Grundlage dieser Daten zu erstellen.

  1. Öffnen Sie Power BI Desktop. Schließen Sie den Begrüßungsbildschirm, wenn er geöffnet ist.

  2. Navigieren Sie auf der Registerkarte Home zu Daten abrufen>Mehr.. .

    Screenshot, der zeigt, wie Daten aus HDInsight Apache Spark in Power BI Desktop aufgenommen werden.

  3. Geben Sie Spark in das Suchfeld ein, wählen Sie Azure HDInsight Spark aus, und wählen Sie dann Verbinden aus.

    Screenshot, der zeigt, wie Daten aus Apache Spark BI in Power BI aufgenommen werden.

  4. Geben Sie Ihre Cluster-URL (in der Form mysparkcluster.azurehdinsight.net) in das Textfeld Server ein.

  5. Wählen Sie unter Datenverbindungsmodus: die Option DirectQuery aus. Klicken Sie anschließend auf OK.

    Sie können mit Spark beide Datenkonnektivitätsmodi verwenden. Wenn Sie „DirectQuery“ verwenden, werden Änderungen in Berichten ohne Aktualisierung des gesamten Datasets wiedergegeben. Wenn Sie Daten importieren, müssen Sie das Dataset aktualisieren, um die Änderungen zu sehen. Weitere Informationen dazu, wie und wann Sie „DirectQuery“ verwenden, finden Sie unter Verwenden von DirectQuery mit Power BI.

  6. Geben Sie die Kontoinformationen für die HDInsight-Anmeldung ein, und wählen Sie dann Verbinden aus. Der Standardkontoname lautet admin.

  7. Wählen Sie die Tabelle hvac aus, warten Sie, um eine Vorschau der Daten anzuzeigen, und wählen Sie dann Laden aus.

    Screenshot mit Spark Cluster-Benutzername und Kennwort.

    Power BI Desktop verfügt nun über alle Informationen, die zum Herstellen einer Verbindung mit dem Spark-Cluster und zum Laden von Daten aus der Tabelle hvac erforderlich sind. Die Tabelle und ihre Spalten werden im Bereich Felder angezeigt.

  8. Visualisieren Sie die Abweichung zwischen Zieltemperatur und Ist-Temperatur für jedes Gebäude:

    1. Wählen Sie im Bereich VISUALISIERUNGEN die Option Flächendiagramm aus.

    2. Ziehen Sie das Feld BuildingID unter Achse und die Felder ActualTemp und TargetTemp unter Wert.

      Screenshot mit Spalten zum Hinzufügen von Werten.

      Das Diagramm sieht wie folgt aus:

      Screenshot mit Flächendiagrammsumme.

      Standardmäßig werden in der Visualisierung die Summen für ActualTemp und TargetTemp angezeigt. Wählen Sie den Pfeil nach unten neben ActualTemp und TargetTemp im Bereich „Visualisierungen“ aus. Sie sehen, dass Summe ausgewählt ist.

    3. Wählen Sie den Pfeil nach unten neben ActualTemp und TargetTemp im Bereich „Visualisierungen“ aus, wählen Sie Durchschnitt aus, um den Durchschnittswert zwischen tatsächlicher und Zieltemperatur für jedes Gebäude zu erhalten.

      Screenshot, der den Mittelwert der Werte zeigt.

      Ihre Datenvisualisierung sollte ähnlich dem Screenshot aussehen. Bewegen Sie den Cursor über die Visualisierung, um QuickInfos mit relevanten Daten abzurufen.

      Screenshot mit Flächendiagramm

  9. Navigieren Sie zu Datei>Speichern, geben Sie den Namen BuildingTemperature für die Datei ein, und wählen Sie dann Speichern aus.

Veröffentlichen des Berichts im Power BI-Dienst (optional)

Mit dem Power BI-Dienst können Sie Berichte und Dashboards in Ihrer Organisation freigeben. In diesem Abschnitt veröffentlichen Sie zunächst das DataSet und den Bericht. Dann heften Sie den Bericht an ein Dashboard an. Dashboards werden üblicherweise dazu verwendet, sich auf eine Teilmenge der Daten in einem Bericht zu konzentrieren. Ihr Bericht enthält zwar nur eine Visualisierung, es ist aber dennoch hilfreich, die Schritte durchzugehen.

  1. Öffnen Sie Power BI Desktop.

  2. Klicken Sie auf der Registerkarte Start auf Veröffentlichen.

    Screenshot der Veröffentlichung über Power BI Desktop.

  3. Wählen Sie einen Arbeitsbereich für die Veröffentlichung des Datasets und des Berichts aus, und wählen Sie dann Auswählen. In der folgenden Abbildung wird die Standardoption My Workspace (Mein Arbeitsbereich) ausgewählt.

    Screenshot mit ausgewähltem Arbeitsbereich zum Veröffentlichen von Datasets und Berichten.

  4. Nachdem die Veröffentlichung abgeschlossen ist, wählen Sie Open „BuildingTemperature.pbix“ in Power BI („BuildingTemperature.pbix“ in Power BI öffnen).

    Screenshot, der den Erfolg der Veröffentlichung zeigt, klicken Sie, um Anmeldeinformationen einzugeben.

  5. Wählen Sie im Power BI-Dienst Anmeldeinformationen eingeben.

    Screenshot, der zeigt, wie Anmeldeinformationen im Power BI-Dienst eingegeben werden.

  6. Wählen Sie Anmeldeinformationen bearbeiten.

    Screenshot, der „Anmeldeinformationen bearbeiten“ im Power BI-Dienst zeigt.

  7. Geben Sie die Kontoinformationen für die HDInsight-Anmeldung ein, und wählen Sie Anmelden. Der Standardkontoname lautet admin.

    Screenshot der Anmeldung beim Spark-Cluster.

  8. Navigieren Sie im linken Bereich zu Arbeitsbereiche>Mein Arbeitsbereich>BERICHTE, und wählen Sie BuildingTemperature.

    Screenshot mit unter Berichten im linken Bereich aufgeführten Bericht.

    Im linken Bereich sollte unter DATASETS außerdem BuildingTemperature aufgeführt sein.

    Das in Power BI Desktop erstellte visuelle Element ist nun im Power BI-Dienst verfügbar.

  9. Zeigen Sie mit der Maus auf die Visualisierung, und wählen Sie dann das Symbol zum Anheften in der rechten oberen Ecke.

    Screenshot des Berichts im Power BI-Dienst.

  10. Wählen Sie „Neues Dashboard“, geben Sie den Namen Building temperature ein, und wählen Sie dann Anheften.

    Screenshot mit „Anheften an neues Dashboard“.

  11. Wählen Sie im Bericht Zu Dashboard wechseln.

Ihr visuelles Element wird an das Dashboard angeheftet. Sie können weitere visuelle Elemente zum Bericht hinzufügen und sie ans gleiche Dashboard anheften. Weitere Informationen zu Berichten und Dashboards finden Sie unter Berichte in Power BI und Einführung in Dashboards für Power BI-Designer.

Bereinigen von Ressourcen

Nach Abschluss des Tutorials kann es ratsam sein, den Cluster zu löschen. Mit HDInsight werden Ihre Daten in Azure Storage gespeichert, sodass Sie einen Cluster problemlos löschen können, wenn er nicht verwendet wird. Für einen HDInsight-Cluster fallen auch dann Gebühren an, wenn er nicht verwendet wird. Da die Gebühren für den Cluster erheblich höher sind als die Kosten für den Speicher, ist es sinnvoll, nicht verwendete Cluster zu löschen.

Informationen zum Löschen eines Clusters finden Sie unter Löschen eines HDInsight-Clusters mit Ihrem Browser, PowerShell oder der Azure CLI.

Nächste Schritte

In diesem Tutorial haben Sie erfahren, wie Sie mit Microsoft Power BI Daten in einem Apache Spark-Cluster in Azure HDInsight visualisieren. Fahren Sie mit dem nächsten Artikel fort, um zu erfahren, wie Sie eine Anwendung für maschinelles Lernen erstellen.