Samouczek: analizowanie danych platformy Apache Spark przy użyciu usługi Power BI w usłudze HDInsight

Z tego samouczka dowiesz się, jak za pomocą usługi Microsoft Power BI wizualizować dane w klastrze Apache Spark w usłudze Azure HDInsight.

Z tego samouczka dowiesz się, jak wykonywać następujące czynności:

  • wizualizowanie danych platformy Spark przy użyciu usługi Power BI

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Wymagania wstępne

Weryfikowanie danych

Notes Jupyter utworzony w ramach poprzedniego samouczka zawiera kod do utworzenia tabeli hvac. Ta tabela jest oparta na pliku CSV dostępnym we wszystkich klastrach Spark usługi HDInsight pod adresem \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Postępuj zgodnie z następującą procedurą, aby sprawdzić dane.

  1. W notesie Jupyter Notebook wklej następujący kod, a następnie naciśnij klawisze SHIFT + ENTER. Kod sprawdza obecność tabel.

    %%sql
    SHOW TABLES
    

    Dane wyjściowe wyglądają następująco:

    Show tables in Spark.

    Jeśli notes został zamknięty przed rozpoczęciem tego samouczka, tabela hvactemptable jest wyczyszczona, więc nie znajduje się w danych wyjściowych. Z poziomu narzędzi do analizy biznesowej można uzyskać dostęp tylko do tabel Hive przechowywanych w magazynie metadanych (wskazywanych przez wartość False w kolumnie isTemporary). W tym samouczku nawiążesz połączenie z utworzoną tabelą hvac.

  2. Wklej następujący kod do pustej komórki, a następnie naciśnij klawisze SHIFT + ENTER. Kod sprawdza dane w tabeli.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Dane wyjściowe wyglądają następująco:

    Show rows from hvac table in Spark.

  3. W menu File (Plik) w notesie wybierz pozycję Close and Halt (Zamknij i zatrzymaj). Zamknij notes, aby zwolnić zasoby.

Wizualizacja danych

W tej sekcji użyjemy usługi Power BI do utworzenia wizualizacji, raportów i pulpitów nawigacyjnych na podstawie danych klastra platformy Spark.

Tworzenie raportu w programie Power BI Desktop

Pierwsze kroki podczas pracy z platformą Spark obejmują połączenie się z klastrem w programie Power BI Desktop, załadowanie danych z klastra i utworzenie podstawowej wizualizacji na podstawie tych danych.

  1. Otwórz Power BI Desktop. Zamknij ekran powitalny uruchamiania, jeśli zostanie otwarty.

  2. Na karcie Narzędzia główne przejdź do pozycji Pobierz dane>Więcej...

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. W Spark polu wyszukiwania wybierz pozycję Azure HDInsight Spark, a następnie wybierz pozycję Połączenie.

    Get data into Power BI from Apache Spark BI.

  4. Wprowadź adres URL klastra (w formularzu mysparkcluster.azurehdinsight.net) w polu tekstowym Serwer .

  5. W obszarze Tryb łączności danych wybierz pozycję DirectQuery. Następnie wybierz opcję OK.

    Platforma Spark umożliwia wykorzystanie dowolnego trybu łączności danych. Jeśli używasz zapytania bezpośredniego, zmiany są uwzględniane w raportach bez odświeżania całego zestawu danych. W przypadku importowania danych należy odświeżyć zestaw danych, aby zobaczyć zmiany. Aby uzyskać więcej informacji o tym, jak i kiedy korzystać z zapytania bezpośredniego, zobacz Używanie zapytania bezpośredniego w usłudze Power BI.

  6. Wprowadź informacje o koncie logowania usługi HDInsight, a następnie wybierz pozycję Połączenie. Domyślna nazwa konta to admin.

  7. Wybierz tabelę, poczekaj hvac , aby wyświetlić podgląd danych, a następnie wybierz pozycję Załaduj.

    Spark cluster user name and password.

    Program Power BI Desktop posiada informacje niezbędne do połączenia się z klastrem Spark i załadowania danych z tabeli hvac. Tabela i jej kolumny zostaną wyświetlone w okienku Pola.

  8. Wizualizuj różnicę między temperaturą docelową i temperaturą rzeczywistą każdego budynku:

    1. W okienku WIZUALIZACJE wybierz pozycję Wykres warstwowy.

    2. Przeciągnij pole BuildingID do obszaru i przeciągnij pola ActualTemp i TargetTemp do obszaru Wartość.

      add value columns.

      Diagram wygląda następująco:

      area graph sum.

      Domyślnie wizualizacja pokazuję sumę wartości ActualTemp i TargetTemp. Wybierz strzałkę w dół obok pozycji ActualTemp i TragetTemp w okienku Wizualizacje. Zostanie wyświetlona opcja Suma.

    3. Wybierz strzałki w dół obok pozycji ActualTemp i TragetTemp w okienku Wizualizacje, wybierz pozycję Średnia, aby uzyskać średnią rzeczywistych i docelowych temperatur dla każdego budynku.

      average of values.

      Twoja wizualizacja danych będzie podobna do przedstawionej na zrzucie ekranu. Przesuń kursor nad wizualizację, aby wyświetlić etykietki narzędzi z odpowiednimi danymi.

      area graph .png " alt-text="area graph"." border="true":::

  9. Przejdź do pozycji Zapisz plik>, wprowadź nazwę BuildingTemperature pliku, a następnie wybierz pozycję Zapisz.

Publikowanie raportu w usłudze Power BI (opcjonalnie)

Usługa Power BI umożliwia udostępnianie raportów i pulpitów nawigacyjnych w ramach organizacji. W tej sekcji opublikuj najpierw zestaw danych i raport. Następnie przypnij raport do pulpitu nawigacyjnego. Pulpity nawigacyjne są zwykle używane do skupienia się na podzestawie danych w raporcie. Masz tylko jedną wizualizację w raporcie, ale nadal warto wykonać kroki.

  1. Otwórz Power BI Desktop.

  2. Na karcie Narzędzia główne wybierz opcję Publikuj.

    Publish from Power BI Desktop. Desktop" border="true":::

  3. Wybierz obszar roboczy, w celu opublikowania zestawu danych i raportu, a następnie wybierz pozycję Wybierz. Na poniższej ilustracji domyślnie wybrany jest Mój obszar roboczy.

    Select workspace to publish dataset and report to.

  4. Po pomyślnych zakończeniu publikowania wybierz pozycję Otwórz plik "BuildingTemperature.pbix" w usłudze Power BI.

    Publish success, click to enter credentials.

  5. W usługa Power BI wybierz pozycję Wprowadź poświadczenia.

    Enter credentials in Power BI service. " border="true":::

  6. Wybierz pozycję Edytuj poświadczenia.

    Edit credentials in Power BI service.

  7. Wprowadź informacje o koncie logowania usługi HDInsight, a następnie wybierz pozycję Zaloguj. Domyślna nazwa konta to admin.

    Sign in to Spark cluster. Klaster Spark" border="true":::

  8. W okienku po lewej stronie przejdź do pozycji Obszary robocze>Moje RAPORTY obszaru roboczego>, a następnie wybierz pozycję BuildingTemperature.

    Report listed under reports in left pane.

    Pozycja BuildingTemperature powinna również zostać wyświetlona w obszarze ZESTAWY DANYCH w okienku po lewej stronie.

    Wizualizacja utworzona w programie Power BI Desktop jest teraz dostępna w usłudze Power BI.

  9. Umieść kursor nad wizualizacją, a następnie wybierz ikonę pinezki w prawym górnym rogu.

    Report in the Power BI service.

  10. Wybierz pozycję "Nowy pulpit nawigacyjny", wprowadź nazwę Building temperature, a następnie wybierz pozycję Przypnij.

    Pin to new dashboard. to new dashboard" border="true":::

  11. W raporcie wybierz pozycję Przejdź do pulpitu nawigacyjnego.

Wizualizacja zostanie przypięta do pulpitu nawigacyjnego — możesz dodać inne wizualizacje do raportu i przypiąć je do tego samego pulpitu nawigacyjnego. Aby uzyskać więcej informacji na temat raportów i pulpitów nawigacyjnych, zobacz Raporty w usłudze Power BI i Pulpity nawigacyjne w usłudze Power BI.

Czyszczenie zasobów

Po ukończeniu korzystania z samouczka warto usunąć klaster. W usłudze HDInsight dane są przechowywane w usłudze Azure Storage, dzięki czemu można bezpiecznie usunąć klaster, gdy nie jest używany. Opłaty są również naliczane za klaster usługi HDInsight, nawet jeśli nie jest używany. Ponieważ opłaty za klaster są wielokrotnie większe niż opłaty za magazyn, warto usunąć klastry, gdy nie są używane.

Aby usunąć klaster, zobacz Usuwanie klastra usługi HDInsight przy użyciu przeglądarki, programu PowerShell lub interfejsu wiersza polecenia platformy Azure.

Następne kroki

W tym samouczku przedstawiono sposób używania usługi Microsoft Power BI do wizualizacji danych w klastrze Apache Spark w usłudze Azure HDInsight. Przejdź do następnego artykułu, aby zobaczyć, jak utworzyć aplikację uczenia maszynowego.