Kurz: Analýza dat Apache Spark v HDInsight pomocí Power BITutorial: Analyze Apache Spark data using Power BI in HDInsight

Další informace o použití Microsoft Power BI k vizualizaci dat Apache Spark cluster v Azure HDInsight.Learn how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight.

V tomto kurzu se naučíte:In this tutorial, you learn how to:

  • Vizualizace dat Sparku pomocí Power BIVisualize Spark data using Power BI

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.If you don't have an Azure subscription, create a free account before you begin.

PožadavkyPrerequisites

Ověření datVerify the data

Poznámkový blok Jupyter , kterou jste vytvořili v předchozí kurz o službě obsahuje kód pro vytvoření hvac tabulky.The Jupyter Notebook that you created in the previous tutorial includes code to create an hvac table. Tato tabulka je založená na souboru CSV, který je k dispozici ve všech clusterech HDInsight Spark v umístění \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv.This table is based on the CSV file available on all HDInsight Spark clusters at \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Pomocí následujícího postupu ověřte data.Use the following procedure to verify the data.

  1. Do poznámkového bloku Jupyter vložte následující kód a pak stiskněte SHIFT + ENTER.From the Jupyter notebook, paste the following code, and then press SHIFT + ENTER. Kód ověří existenci tabulek.The code verifies the existence of the tables.

    %%sql
    SHOW TABLES
    

    Výstup bude vypadat následovně:The output looks like:

    Zobrazení tabulek ve Sparku

    Pokud jste poznámkový blok před zahájením tohoto kurzu zavřeli, tabulka hvactemptable je vyčištěná, takže se ve výstupu nezobrazí.If you closed the notebook before starting this tutorial, hvactemptable is cleaned up, so it's not included in the output. Z nástrojů BI je možný přístup pouze k tabulkám Hive uloženým v metastoru (ty mají ve sloupci isTemporary označení False).Only Hive tables that are stored in the metastore (indicated by False under the isTemporary column) can be accessed from the BI tools. V tomto kurzu se připojíte k tabulce hvac, kterou jste vytvořili.In this tutorial, you connect to the hvac table that you created.

  2. Do prázdné buňky vložte následující kód a pak stiskněte SHIFT + ENTER.Paste the following code in an empty cell, and then press SHIFT + ENTER. Kód ověří data v tabulce.The code verifies the data in the table.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Výstup bude vypadat následovně:The output looks like:

    Zobrazení řádků tabulky hvac ve Sparku

  3. V nabídce Soubor poznámkového bloku klikněte na Zavřít a zastavit.From the File menu on the notebook, click Close and Halt. Vypněte poznámkový blok a uvolněte tak prostředky.Shut down the notebook to release the resources.

Vizualizace datVisualize the data

V této části pomocí Power BI vytvoříte vizualizace, sestavy a řídicí panely z dat v clusteru Spark.In this section, you use Power BI to create visualizations, reports, and dashboards from the Spark cluster data.

Vytvoření sestavy v Power BI DesktopuCreate a report in Power BI Desktop

Prvními kroky při práci se Sparkem je připojení ke clusteru v Power BI Desktopu, načtení dat z clusteru a vytvoření základní vizualizace na základě těchto dat.The first steps in working with Spark are to connect to the cluster in Power BI Desktop, load data from the cluster, and create a basic visualization based on that data.

Poznámka

Konektor ukázaný v tomto článku je aktuálně ve verzi Preview.The connector demonstrated in this article is currently in preview. Případnou zpětnou vazbu můžete poskytnout přes web komunity Power BI nebo na fóru Power BI Ideas (Nápady ohledně Power BI).Provide any feedback you have through the Power BI Community site or Power BI Ideas.

  1. Otevřete Power BI Desktop.Open Power BI Desktop.

  2. Na kartě Domů klikněte na Načíst data a pak na Další.From the Home tab, click Get Data, then More.

    Načtení dat do Power BI Desktopu z Apache Sparku ve službě HDInsightGet data into Power BI Desktop from HDInsight Apache Spark

  3. Zadejte Spark do vyhledávacího pole, vyberte Azure HDInsight Sparka potom klikněte na tlačítko připojit.Enter Spark in the search box, select Azure HDInsight Spark, and then click Connect.

    Načtení dat do Power BI z Apache Spark BIGet data into Power BI from Apache Spark BI

  4. Zadejte adresu URL vašeho clusteru (ve formátu mysparkcluster.azurehdinsight.net), vyberte DirectQuery a pak klikněte na OK.Enter your cluster URL (in the form mysparkcluster.azurehdinsight.net), select DirectQuery, and then click OK.

    V případě Sparku můžete použít jakýkoli režim připojení dat.You can use either data connectivity mode with Spark. Pokud použijete DirectQuery, změny se v sestavách projeví bez nutnosti aktualizace celé datové sady.If you use DirectQuery, changes are reflected in reports without refreshing the entire dataset. Pokud data importujete, musíte datovou sadu aktualizovat, aby se změny projevily.If you import data, you must refresh the data set to see changes. Další informace o tom, jak a kdy použít DirectQuery, najdete v tématu Použití DirectQuery v Power BI.For more information on how and when to use DirectQuery, see Using DirectQuery in Power BI.

  5. Zadejte přihlašovací údaje účtu služby HDInsight a pak klikněte na Připojit.Enter the HDInsight login account information, then click Connect. Výchozí název účtu je admin.The default account name is admin.

  6. Vyberte tabulku hvac, počkejte na zobrazení náhledu dat a pak klikněte na Načíst.Select the hvac table, wait to see a preview of the data, and then click Load.

    Uživatelské jméno a heslo clusteru SparkSpark cluster user name and password

    Power BI Desktop má všechny potřebné informace pro připojení ke clusteru Spark a načtení dat z tabulky hvac.Power BI Desktop has the information it needs to connect to the Spark cluster and load data from the hvac table. Tabulka a její sloupce se zobrazí v podokně Pole.The table and its columns are displayed in the Fields pane. Viz následující snímek obrazovky:See the following screenshot:

  7. Vizualizujte rozdíl mezi cílovou teplotou a skutečnou teplotou jednotlivých budov:Visualize the variance between target temperature and actual temperature for each building:

    1. V podokně VIZUALIZACE vyberte Plošný graf.In the VISUALIZATIONS pane, select Area Chart.

    2. Přetáhněte pole BuildingID (ID budovy) do části Osa a pole ActualTemp (Skutečná teplota) a TargetTemp (Cílová teplota) do části Hodnota.Drag the BuildingID field to Axis, and drag the ActualTemp and TargetTemp fields to Value.

      Vytvoření vizualizací dat Sparku pomocí Apache Spark BICreate Spark data visualizations using Apache Spark BI

      Diagram vypadá takto:The diagram looks like:

      Vytvoření vizualizací dat Sparku pomocí Apache Spark BICreate Spark data visualizations using Apache Spark BI

      Vizualizace ve výchozím nastavení zobrazí pro ActualTemp a TargetTemp součet hodnot.By default the visualization shows the sum for ActualTemp and TargetTemp. Když kliknete na šipku dolů vedle položek ActualTemp and TragetTemp v podokně Vizualizace, zobrazí se vybraná možnost Součet.Click the down arrow next to ActualTemp and TragetTemp in the Visualizations pane, you can see Sum is selected.

    3. Klikněte na šipky dolů vedle položek ActualTemp a TragetTemp v podokně Vizualizace a vyberte Průměr, abyste pro každou budovu získali průměrnou skutečnou a cílovou teplotu.Click the down arrows next to ActualTemp and TragetTemp in the Visualizations pane, select Average to get an average of actual and target temperatures for each building.

      Vytvoření vizualizací dat Sparku pomocí Apache Spark BICreate Spark data visualizations using Apache Spark BI

      Vaše vizualizace dat by měla vypadat podobně jako na následujícím snímku obrazovky.Your data visualization shall be similar to the one in the screenshot. Přesunutím kurzoru nad vizualizaci zobrazte popisky s relevantními daty.Move your cursor over the visualization to get tool tips with relevant data.

      Vytvoření vizualizací dat Sparku pomocí Apache Spark BICreate Spark data visualizations using Apache Spark BI

  8. Klikněte na Soubor, pak na Uložit a zadejte název souboru BuildingTemperature.pbix.Click File then Save, and enter the name BuildingTemperature.pbix for the file.

Publikování sestavy ve službě Power BI (volitelné)Publish the report to the Power BI Service (optional)

Služba Power BI umožňuje sdílet sestavy a řídicí panely napříč organizací.The Power BI service allows you to share reports and dashboards across your organization. V této části nejprve publikujete datovou sadu a sestavu.In this section, you first publish the dataset and the report. Pak sestavu připnete na řídicí panel.Then, you pin the report to a dashboard. Řídicí panely se obvykle používají k zaměření na podmnožinu dat v sestavě. Vaše sestava obsahuje pouze jednu vizualizaci, ale přesto je užitečné si tyto kroky projít.Dashboards are typically used to focus on a subset of data in a report; you have only one visualization in your report, but it's still useful to go through the steps.

  1. Otevřete Power BI Desktop.Open Power BI Desktop.

  2. Na kartě Domů klikněte na Publikovat.From the Home tab, click Publish.

    Publikování z Power BI DesktopuPublish from Power BI Desktop

  3. Vyberte pracovní prostor, do kterého chcete datovou sadu a sestavu publikovat, a klikněte na Vybrat.Select a workspace to publish your dataset and report to, then click Select. Na následujícím obrázku je vybraný výchozí pracovní prostor My Workspace.In the following image, the default My Workspace is selected.

    Výběr pracovního prostoru, do kterého se mají datová sada a sestava publikovatSelect workspace to publish dataset and report to

  4. Po úspěšném publikování klikněte na Otevřít soubor BuildingTemperature.pbix v Power BI.After the publishing is succeeded, click Open 'BuildingTemperature.pbix' in Power BI.

    Úspěšné publikování a kliknutí pro zadání přihlašovacích údajůPublish success, click to enter credentials

  5. Ve službě Power BI klikněte na Zadat přihlašovací údaje.In the Power BI service, click Enter credentials.

    Zadání přihlašovacích údajů ve službě Power BIEnter credentials in Power BI service

  6. Klikněte na Upravit přihlašovací údaje.Click Edit credentials.

    Úprava přihlašovacích údajů ve službě Power BIEdit credentials in Power BI service

  7. Zadejte přihlašovací údaje účtu služby HDInsight a pak klikněte na Přihlásit se.Enter the HDInsight login account information, and then click Sign in. Výchozí název účtu je admin.The default account name is admin.

    Přihlášení ke clusteru SparkSign in to Spark cluster

  8. V levém podokně přejděte do části Pracovní prostory > My Workspace > SESTAVY a klikněte na BuildingTemperature.In the left pane, go to Workspaces > My Workspace > REPORTS, then click BuildingTemperature.

    Sestava uvedená v části Sestavy v levém podokněReport listed under reports in left pane

    V části DATOVÉ SADY v levém podokně by se také měla zobrazit datová sada BuildingTemperature.You should also see BuildingTemperature listed under DATASETS in the left pane.

    Vizuál, který jste vytvořili v Power BI Desktopu, je teď dostupný ve službě Power BI.The visual you created in Power BI Desktop is now available in the Power BI service.

  9. Najeďte kurzorem na vizualizaci a klikněte na ikonu připínáčku v pravém horním rohu.Hover your cursor over the visualization, and then click the pin icon on the upper right corner.

    Sestava ve službě Power BIReport in the Power BI service

  10. Vyberte Nový řídicí panel, zadejte název Building temperature a klikněte na Připnout.Select "New dashboard", enter the name Building temperature, then click Pin.

    Připnutí na nový řídicí panelPin to new dashboard

  11. V sestavě klikněte na Přejít na řídicí panel.In the report, click Go to dashboard.

Váš vizuál je připnutý na řídicím panelu. Do sestavy můžete přidat další vizuály a připnout je na stejný řídicí panel.Your visual is pinned to the dashboard - you can add other visuals to the report and pin them to the same dashboard. Další informace o sestavách a řídicích panelů najdete v tématu sestavy v Power BI a řídicí panely v Power BI.For more information about reports and dashboards, see Reports in Power BI and Dashboards in Power BI.

Další postupNext steps

V tomto kurzu jste se naučili:In this tutorial, you learned how to:

  • Vizualizace dat Apache Sparku s využitím Power BI.Visualize Apache Spark data using Power BI.

V dalším článku se dozvíte, jak můžete data zaregistrovaná ve Sparku přetáhnout do nástroje pro analýzu BI, jako je Power BI.Advance to the next article to see how the data you registered in Spark can be pulled into a BI analytics tool such as Power BI.