Kurz: analýza Apache Spark dat pomocí Power BI ve službě HDInsightTutorial: Analyze Apache Spark data using Power BI in HDInsight

V tomto kurzu se naučíte používat Microsoft Power BI k vizualizaci dat v clusteru Apache Spark ve službě Azure HDInsight.In this tutorial, you learn how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight.

V tomto kurzu se naučíte:In this tutorial, you learn how to:

  • Vizualizace dat Sparku pomocí Power BIVisualize Spark data using Power BI

Pokud ještě nemáte předplatné Azure, vytvořte si bezplatný účet před tím, než začnete.If you don't have an Azure subscription, create a free account before you begin.

PředpokladyPrerequisites

Ověření datVerify the data

Jupyter notebook , který jste vytvořili v předchozím kurzu , obsahuje kód pro vytvoření tabulky hvac.The Jupyter Notebook that you created in the previous tutorial includes code to create an hvac table. Tato tabulka je založená na souboru CSV, který je k dispozici ve všech clusterech HDInsight Spark na \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv.This table is based on the CSV file available on all HDInsight Spark clusters at \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Pomocí následujícího postupu ověřte data.Use the following procedure to verify the data.

  1. Do poznámkového bloku Jupyter vložte následující kód a pak stiskněte SHIFT + ENTER.From the Jupyter notebook, paste the following code, and then press SHIFT + ENTER. Kód ověří existenci tabulek.The code verifies the existence of the tables.

    %%sql
    SHOW TABLES
    

    Výstup bude vypadat následovně:The output looks like:

    Zobrazení tabulek ve Sparku

    Pokud jste poznámkový blok před zahájením tohoto kurzu zavřeli, tabulka hvactemptable je vyčištěná, takže se ve výstupu nezobrazí.If you closed the notebook before starting this tutorial, hvactemptable is cleaned up, so it's not included in the output. Z nástrojů BI je možný přístup pouze k tabulkám Hive uloženým v metastoru (ty mají ve sloupci isTemporary označení False).Only Hive tables that are stored in the metastore (indicated by False under the isTemporary column) can be accessed from the BI tools. V tomto kurzu se připojíte k tabulce hvac, kterou jste vytvořili.In this tutorial, you connect to the hvac table that you created.

  2. Do prázdné buňky vložte následující kód a pak stiskněte SHIFT + ENTER.Paste the following code in an empty cell, and then press SHIFT + ENTER. Kód ověří data v tabulce.The code verifies the data in the table.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    Výstup bude vypadat následovně:The output looks like:

    Zobrazení řádků tabulky hvac ve Sparku

  3. V nabídce Soubor poznámkového bloku vyberte Zavřít a zastavit.From the File menu on the notebook, select Close and Halt. Vypněte poznámkový blok a uvolněte tak prostředky.Shut down the notebook to release the resources.

Vizualizace datVisualize the data

V této části pomocí Power BI vytvoříte vizualizace, sestavy a řídicí panely z dat v clusteru Spark.In this section, you use Power BI to create visualizations, reports, and dashboards from the Spark cluster data.

Vytvoření sestavy v Power BI DesktopuCreate a report in Power BI Desktop

Prvními kroky při práci se Sparkem je připojení ke clusteru v Power BI Desktopu, načtení dat z clusteru a vytvoření základní vizualizace na základě těchto dat.The first steps in working with Spark are to connect to the cluster in Power BI Desktop, load data from the cluster, and create a basic visualization based on that data.

Poznámka

Konektor ukázaný v tomto článku je aktuálně ve verzi Preview.The connector demonstrated in this article is currently in preview. Případnou zpětnou vazbu můžete poskytnout přes web komunity Power BI nebo na fóru Power BI Ideas (Nápady ohledně Power BI).Provide any feedback you have through the Power BI Community site or Power BI Ideas.

  1. Otevřete Power BI Desktop.Open Power BI Desktop. Zavře úvodní obrazovku, pokud se spustí.Close the start-up splash screen if it opens.

  2. Na kartě Domů přejděte na získat data > Další. ..From the Home tab, navigate to Get Data > More...

    Načtení dat do Power BI Desktopu z Apache Sparku ve službě HDInsightGet data into Power BI Desktop from HDInsight Apache Spark

  3. Do vyhledávacího pole zadejte Spark, vyberte Azure HDInsight Sparka pak vyberte připojit.Enter Spark in the search box, select Azure HDInsight Spark, and then select Connect.

    Načtení dat do Power BI z Apache Spark BIGet data into Power BI from Apache Spark BI

  4. Do textového pole Server zadejte adresu URL clusteru (ve formátu mysparkcluster.azurehdinsight.net).Enter your cluster URL (in the form mysparkcluster.azurehdinsight.net) in the Server text box.

  5. V části režim připojení datvyberte DirectQuery.Under Data connectivity mode, select DirectQuery. Pak vyberte OK.Then select OK.

    V případě Sparku můžete použít jakýkoli režim připojení dat.You can use either data connectivity mode with Spark. Pokud použijete DirectQuery, změny se v sestavách projeví bez nutnosti aktualizace celé datové sady.If you use DirectQuery, changes are reflected in reports without refreshing the entire dataset. Pokud data importujete, musíte datovou sadu aktualizovat, aby se změny projevily.If you import data, you must refresh the data set to see changes. Další informace o tom, jak a kdy použít DirectQuery, najdete v tématu Použití DirectQuery v Power BI.For more information on how and when to use DirectQuery, see Using DirectQuery in Power BI.

  6. Zadejte informace o přihlašovacím účtu HDInsight a pak vyberte připojit.Enter the HDInsight login account information, then select Connect. Výchozí název účtu je admin.The default account name is admin.

  7. Vyberte tabulku hvac, počkejte, než se zobrazí náhled dat, a pak vyberte načíst.Select the hvac table, wait to see a preview of the data, and then select Load.

    Uživatelské jméno a heslo clusteru SparkSpark cluster user name and password

    Power BI Desktop má všechny potřebné informace pro připojení ke clusteru Spark a načtení dat z tabulky hvac.Power BI Desktop has the information it needs to connect to the Spark cluster and load data from the hvac table. Tabulka a její sloupce se zobrazí v podokně Pole.The table and its columns are displayed in the Fields pane.

  8. Vizualizujte rozdíl mezi cílovou teplotou a skutečnou teplotou jednotlivých budov:Visualize the variance between target temperature and actual temperature for each building:

    1. V podokně VIZUALIZACE vyberte Plošný graf.In the VISUALIZATIONS pane, select Area Chart.

    2. Přetáhněte pole BuildingID (ID budovy) do části Osa a pole ActualTemp (Skutečná teplota) a TargetTemp (Cílová teplota) do části Hodnota.Drag the BuildingID field to Axis, and drag the ActualTemp and TargetTemp fields to Value.

      Přidat sloupce ![hodnot]–(./media/apache-spark-use-bi-tools/apache-spark-bi-add-value-columns.png "Přidat sloupce hodnot")add value columns

      Diagram vypadá takto:The diagram looks like:

      (./media/apache-spark-use-bi-tools/apache-spark-bi-area-graph-sum.png "součet grafu") oblasti ![součtu plošného grafu]area graph sum

      Vizualizace ve výchozím nastavení zobrazí pro ActualTemp a TargetTemp součet hodnot.By default the visualization shows the sum for ActualTemp and TargetTemp. V podokně vizualizace vyberte šipku dolů vedle ActualTemp a TragetTemp , kde vidíte, že je vybraná možnost Sum .Select the down arrow next to ActualTemp and TragetTemp in the Visualizations pane, you can see Sum is selected.

    3. V podokně vizualizace vyberte šipky dolů vedle ActualTemp a TragetTemp . Pokud chcete získat průměr skutečných a cílových teplot pro každé sestavení, vyberte průměr .Select the down arrows next to ActualTemp and TragetTemp in the Visualizations pane, select Average to get an average of actual and target temperatures for each building.

      Průměrná hodnotaaverage of values

      Vaše vizualizace dat by měla vypadat podobně jako na následujícím snímku obrazovky.Your data visualization shall be similar to the one in the screenshot. Přesunutím kurzoru nad vizualizaci zobrazte popisky s relevantními daty.Move your cursor over the visualization to get tool tips with relevant data.

      (./media/apache-spark-use-bi-tools/apache-spark-bi-area-graph.png "graf oblasti") ![plošného grafu]area graph

  9. Přejděte do souboru > Uložit, zadejte název souboru BuildingTemperature a pak vyberte Uložit.Navigate to File > Save, enter the name BuildingTemperature for the file, then select Save.

Publikování sestavy ve službě Power BI (volitelné)Publish the report to the Power BI Service (optional)

Služba Power BI umožňuje sdílet sestavy a řídicí panely napříč organizací.The Power BI service allows you to share reports and dashboards across your organization. V této části nejprve publikujete datovou sadu a sestavu.In this section, you first publish the dataset and the report. Pak sestavu připnete na řídicí panel.Then, you pin the report to a dashboard. Řídicí panely se obvykle používají k zaměření na podmnožinu dat v sestavě.Dashboards are typically used to focus on a subset of data in a report. V sestavě máte jenom jednu vizualizaci, ale je to ještě užitečné při Projděte si postup.You have only one visualization in your report, but it's still useful to go through the steps.

  1. Otevřete Power BI Desktop.Open Power BI Desktop.

  2. Na kartě Domů klikněte na Publikovat.From the Home tab, click Publish.

    Publikování z Power BI DesktopuPublish from Power BI Desktop

  3. Vyberte pracovní prostor, do kterého chcete datovou sadu a sestavu publikovat, a klikněte na Vybrat.Select a workspace to publish your dataset and report to, then click Select. Na následujícím obrázku je vybraný výchozí pracovní prostor My Workspace.In the following image, the default My Workspace is selected.

    Výběr pracovního prostoru, do kterého se mají datová sada a sestava publikovatSelect workspace to publish dataset and report to

  4. Po úspěšném publikování klikněte na Otevřít soubor BuildingTemperature.pbix v Power BI.After the publishing is succeeded, click Open 'BuildingTemperature.pbix' in Power BI.

    Úspěšné publikování a kliknutí pro zadání přihlašovacích údajůPublish success, click to enter credentials

  5. Ve službě Power BI klikněte na Zadat přihlašovací údaje.In the Power BI service, click Enter credentials.

    Zadání přihlašovacích údajů ve službě Power BIEnter credentials in Power BI service

  6. Klikněte na Upravit přihlašovací údaje.Click Edit credentials.

    Úprava přihlašovacích údajů ve službě Power BIEdit credentials in Power BI service

  7. Zadejte přihlašovací údaje účtu služby HDInsight a pak klikněte na Přihlásit se.Enter the HDInsight login account information, and then click Sign in. Výchozí název účtu je admin.The default account name is admin.

    Přihlášení ke clusteru SparkSign in to Spark cluster

  8. V levém podokně přejděte do části Pracovní prostory > My Workspace > SESTAVY a klikněte na BuildingTemperature.In the left pane, go to Workspaces > My Workspace > REPORTS, then click BuildingTemperature.

    Sestava uvedená v části Sestavy v levém podokněReport listed under reports in left pane

    V části DATOVÉ SADY v levém podokně by se také měla zobrazit datová sada BuildingTemperature.You should also see BuildingTemperature listed under DATASETS in the left pane.

    Vizuál, který jste vytvořili v Power BI Desktopu, je teď dostupný ve službě Power BI.The visual you created in Power BI Desktop is now available in the Power BI service.

  9. Najeďte kurzorem na vizualizaci a klikněte na ikonu připínáčku v pravém horním rohu.Hover your cursor over the visualization, and then click the pin icon on the upper right corner.

    Sestava ve službě Power BIReport in the Power BI service

  10. Vyberte Nový řídicí panel, zadejte název Building temperature a klikněte na Připnout.Select "New dashboard", enter the name Building temperature, then click Pin.

    Připnutí na nový řídicí panelPin to new dashboard

  11. V sestavě klikněte na Přejít na řídicí panel.In the report, click Go to dashboard.

Váš vizuál je připnutý na řídicím panelu. Do sestavy můžete přidat další vizuály a připnout je na stejný řídicí panel.Your visual is pinned to the dashboard - you can add other visuals to the report and pin them to the same dashboard. Další informace o sestavách a řídicích panelech najdete v tématu sestavy v Power BI a řídicích panelech v Power BI.For more information about reports and dashboards, see Reports in Power BI and Dashboards in Power BI.

Vyčištění prostředkůClean up resources

Po dokončení kurzu můžete cluster odstranit.After you complete the tutorial, you may want to delete the cluster. Ve službě HDInsight jsou vaše data uložená v Azure Storage, takže můžete cluster bezpečně odstranit, pokud se nepoužívá.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it isn't in use. Účtují se vám také poplatky za cluster HDInsight, a to i v případě, že se už nepoužívá.You're also charged for an HDInsight cluster, even when it isn't in use. Vzhledem k tomu, že se poplatky za cluster mnohokrát účtují rychleji než poplatky za úložiště, má ekonomický smysl odstraňovat clustery, když se nepoužívají.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use.

Pokud chcete odstranit cluster, přečtěte si téma odstranění clusteru HDInsight pomocí prohlížeče, PowerShellu nebo rozhraní příkazového řádku Azure.To delete a cluster, see Delete an HDInsight cluster using your browser, PowerShell, or the Azure CLI.

Další krokyNext steps

V tomto kurzu jste zjistili, jak používat Microsoft Power BI k vizualizaci dat v clusteru Apache Spark ve službě Azure HDInsight.In this tutorial, you learned how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight. V dalším článku se dozvíte, jak můžete data zaregistrovaná ve Sparku přetáhnout do nástroje pro analýzu BI, jako je Power BI.Advance to the next article to see how the data you registered in Spark can be pulled into a BI analytics tool such as Power BI.