Tutorial: Analisar dados do Apache Spark usando o Power BI no HDInsightTutorial: Analyze Apache Spark data using Power BI in HDInsight

Neste tutorial, você aprende a usar o Microsoft Power BI para visualizar dados em um cluster do Apache Spark no Azure HDInsight.In this tutorial, you learn how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight.

Neste tutorial, você aprenderá como:In this tutorial, you learn how to:

  • Visualizar dados de Spark usando o Power BIVisualize Spark data using Power BI

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.If you don't have an Azure subscription, create a free account before you begin.

Pré-requisitosPrerequisites

Verificar os dadosVerify the data

O Jupyter Notebook que você criou no tutorial anterior inclui código para criar uma tabela hvac.The Jupyter Notebook that you created in the previous tutorial includes code to create an hvac table. Esta tabela é baseada no arquivo CSV disponível em todos os clusters do Spark do HDInsight em \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv.This table is based on the CSV file available on all HDInsight Spark clusters at \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Use o procedimento a seguir para verificar os dados.Use the following procedure to verify the data.

  1. A partir do notebook Jupyter, cole o código a seguir e pressione SHIFT+ENTER.From the Jupyter notebook, paste the following code, and then press SHIFT + ENTER. O código verifica a existência das tabelas.The code verifies the existence of the tables.

    %%sql
    SHOW TABLES
    

    A saída se parece com isso:The output looks like:

    Mostrar tabelas no Spark

    Se você fechou o bloco de anotações antes de iniciar este tutorial, hvactemptable é limpo e, portanto, não é incluído na saída.If you closed the notebook before starting this tutorial, hvactemptable is cleaned up, so it's not included in the output. Somente as tabelas do Hive que são armazenadas no metastore (indicado por False na coluna isTemporary) podem ser acessadas por meio das ferramentas de BI.Only Hive tables that are stored in the metastore (indicated by False under the isTemporary column) can be accessed from the BI tools. Neste tutorial, você se conecta à tabela hvac que você criou.In this tutorial, you connect to the hvac table that you created.

  2. Cole o código a seguir em uma célula vazia e pressione SHIFT+ENTER.Paste the following code in an empty cell, and then press SHIFT + ENTER. O código verifica os dados na tabela.The code verifies the data in the table.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    A saída se parece com isso:The output looks like:

    Mostrar linhas da tabela hvac no Spark

  3. No menu Arquivo do notebook, selecione Fechar e Interromper.From the File menu on the notebook, select Close and Halt. Feche o bloco de anotações para liberar os recursos.Shut down the notebook to release the resources.

Visualizar os dadosVisualize the data

Nesta seção, use o Power BI para criar painéis, relatórios e visualizações a partir dos dados do cluster Spark.In this section, you use Power BI to create visualizations, reports, and dashboards from the Spark cluster data.

Criar um relatório no Power BI DesktopCreate a report in Power BI Desktop

As primeiras etapas ao trabalhar com Spark são conectar-se ao cluster no Power BI Desktop, carregar dados do cluster e criar uma visualização básica com base nesses dados.The first steps in working with Spark are to connect to the cluster in Power BI Desktop, load data from the cluster, and create a basic visualization based on that data.

Observação

O conector demonstrado neste artigo está atualmente em visualização.The connector demonstrated in this article is currently in preview. Forneça qualquer comentário que você tenha por meio do site da Comunidade do Power BI ou Ideias do Power BI.Provide any feedback you have through the Power BI Community site or Power BI Ideas.

  1. Abra o Power BI Desktop.Open Power BI Desktop. Feche a tela inicial de inicialização, se estiver aberta.Close the start-up splash screen if it opens.

  2. Na guia Página Inicial, navegue até Obter Dados > Mais.. .From the Home tab, navigate to Get Data > More...

    Coloque os dados no Power BI Desktop do Apache Spark do HDInsightGet data into Power BI Desktop from HDInsight Apache Spark

  3. Insira Spark na caixa de pesquisa, selecione Azure HDInsight Spark e, em seguida, selecione Conectar.Enter Spark in the search box, select Azure HDInsight Spark, and then select Connect.

    Colocar dados no Power BI do Apache Spark BIGet data into Power BI from Apache Spark BI

  4. Insira a URL do cluster (no formato mysparkcluster.azurehdinsight.net) na caixa de texto Servidor.Enter your cluster URL (in the form mysparkcluster.azurehdinsight.net) in the Server text box.

  5. No modo de Conectividade de dados, selecione DirectQuery.Under Data connectivity mode, select DirectQuery. Depois, selecione OK.Then select OK.

    Você pode usar qualquer um dos modos de conectividade de dados com o Spark.You can use either data connectivity mode with Spark. Se você usar o DirectQuery, as alterações serão refletidas em relatórios sem atualizar todo o conjunto de dados.If you use DirectQuery, changes are reflected in reports without refreshing the entire dataset. Se você importar dados, você precisará atualizar o conjunto de dados para ver as alterações.If you import data, you must refresh the data set to see changes. Para obter mais informações sobre como e quando usar o DirectQuery, consulte Usando DirectQuery no Power BI.For more information on how and when to use DirectQuery, see Using DirectQuery in Power BI.

  6. Insira as informações de conta de logon do HDInsight e, em seguida, selecione Conectar.Enter the HDInsight login account information, then select Connect. O nome da conta padrão é admin.The default account name is admin.

  7. Selecione a tabela hvac, aguarde para ver uma visualização dos dados e selecione Carregar.Select the hvac table, wait to see a preview of the data, and then select Load.

    Nome de usuário e senha do cluster do SparkSpark cluster user name and password

    O Power BI Desktop agora tem todas as informações necessárias para se conectar ao cluster do Spark e carregar os dados da tabela hvac.Power BI Desktop has the information it needs to connect to the Spark cluster and load data from the hvac table. A tabela e as respectivas colunas são exibidas no painel Campos.The table and its columns are displayed in the Fields pane.

  8. Visualize a variação entre a temperatura almejada e a temperatura real para cada compilação:Visualize the variance between target temperature and actual temperature for each building:

    1. No painel VISUALIZAÇÕES, selecione Gráfico de Área.In the VISUALIZATIONS pane, select Area Chart.

    2. Arraste o campo BuildingID para Eixoe arraste os campos ActualTemp e TargetTemp para Valor.Drag the BuildingID field to Axis, and drag the ActualTemp and TargetTemp fields to Value.

      adicionar colunas de valoradd value columns

      O diagrama se parecerá com isso:The diagram looks like:

      soma do grafo de áreaarea graph sum

      Por padrão, a visualização mostra a soma de ActualTemp e TargetTemp.By default the visualization shows the sum for ActualTemp and TargetTemp. Selecione a seta para baixo ao lado de ActualTemp e TragetTemp no painel de visualizações, você pode ver que Sum está selecionado.Select the down arrow next to ActualTemp and TragetTemp in the Visualizations pane, you can see Sum is selected.

    3. Selecione as setas para baixo ao lado de ActualTemp e TragetTemp no painel de visualizações, selecione Average para obter uma média de temperatura real e temperatura alvo para cada compilação.Select the down arrows next to ActualTemp and TragetTemp in the Visualizations pane, select Average to get an average of actual and target temperatures for each building.

      média de valoresaverage of values

      A sua visualização de dados deve ser semelhante àquela que aparece na captura de tela.Your data visualization shall be similar to the one in the screenshot. Mova o cursor sobre a visualização para obter dicas de ferramenta com dados relevantes.Move your cursor over the visualization to get tool tips with relevant data.

      grafo de áreaarea graph

  9. Navegue até Arquivo > Salvar, digite o nome BuildingTemperature para o arquivo e selecione Salvar.Navigate to File > Save, enter the name BuildingTemperature for the file, then select Save.

Publicar o relatório para o serviço do Power BI (opcional)Publish the report to the Power BI Service (optional)

O serviço do Power BI permite que você compartilhe os relatórios e painéis pela sua organização.The Power BI service allows you to share reports and dashboards across your organization. Nesta seção, primeiro você publica o conjunto de dados e o relatório.In this section, you first publish the dataset and the report. Em seguida, você pode fixar o relatório em um painel.Then, you pin the report to a dashboard. Os dashboards normalmente são usados para se concentrar em um subconjunto de dados em um relatório.Dashboards are typically used to focus on a subset of data in a report. Você tem apenas uma visualização em seu relatório, mas ainda assim é útil percorrer as etapas.You have only one visualization in your report, but it's still useful to go through the steps.

  1. Abra o Power BI Desktop.Open Power BI Desktop.

  2. A partir da guia Início, clique em Publicar.From the Home tab, click Publish.

    Publicar do Power BI DesktopPublish from Power BI Desktop

  3. Selecione um workspace para o qual publicar seu conjunto de dados e para o qual fazer relatórios e, em seguida, clique em Selecionar.Select a workspace to publish your dataset and report to, then click Select. Na imagem a seguir, o Meu Workspace padrão está selecionado.In the following image, the default My Workspace is selected.

    Selecione o workspace para o qual publicar seu conjunto de dados e para o qual fazer relatóriosSelect workspace to publish dataset and report to

  4. Depois que a publicação for bem-sucedida, clique em Abrir 'BuildingTemperature.pbix' no Power BI.After the publishing is succeeded, click Open 'BuildingTemperature.pbix' in Power BI.

    Publicação realizada com êxito, clique para inserir credenciaisPublish success, click to enter credentials

  5. No serviço do Power BI, clique em Inserir credenciais.In the Power BI service, click Enter credentials.

    Inserir as credenciais no serviço do Power BIEnter credentials in Power BI service

  6. Clique em Editar credenciais.Click Edit credentials.

    Editar as credenciais no serviço do Power BIEdit credentials in Power BI service

  7. Insira as informações de conta de logon do HDInsight e, em seguida, clique em Entrar.Enter the HDInsight login account information, and then click Sign in. O nome da conta padrão é admin.The default account name is admin.

    Entrar no cluster SparkSign in to Spark cluster

  8. No painel esquerdo, acesse Workspaces > Meu workspace > RELATÓRIOS e, em seguida, clique em BuildingTemperature.In the left pane, go to Workspaces > My Workspace > REPORTS, then click BuildingTemperature.

    Relatório listado em relatórios no painel esquerdoReport listed under reports in left pane

    Você também verá a BuildingTemperature listada sob DATASETS no painel à esquerda.You should also see BuildingTemperature listed under DATASETS in the left pane.

    O visual criado no Power BI Desktop agora está disponível no serviço do Power BI.The visual you created in Power BI Desktop is now available in the Power BI service.

  9. Focalize o cursor sobre a visualização e, em seguida, clique no ícone de fixação no canto superior direito.Hover your cursor over the visualization, and then click the pin icon on the upper right corner.

    Relatório no serviço do Power BIReport in the Power BI service

  10. Selecione "Novo painel", digite o nome Building temperature e, em seguida, clique em Fixar.Select "New dashboard", enter the name Building temperature, then click Pin.

    Fixar no novo painelPin to new dashboard

  11. No relatório, clique em Ir para o painel.In the report, click Go to dashboard.

O visual é fixado no painel – você pode adicionar outros elementos visuais no relatório e fixá-los no mesmo painel.Your visual is pinned to the dashboard - you can add other visuals to the report and pin them to the same dashboard. Para saber mais sobre relatórios e painéis, confira Relatórios no Power BI e Painéis no Power BI.For more information about reports and dashboards, see Reports in Power BI and Dashboards in Power BI.

Limpar recursosClean up resources

Após concluir o tutorial, convém excluir o cluster.After you complete the tutorial, you may want to delete the cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, assim você poderá excluir, com segurança, um cluster quando ele não estiver em uso.With HDInsight, your data is stored in Azure Storage, so you can safely delete a cluster when it isn't in use. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso.You're also charged for an HDInsight cluster, even when it isn't in use. Como os encargos para o cluster são muitas vezes maiores do que os encargos para armazenamento, faz sentido, do ponto de vista econômico, excluir os clusters quando não estiverem em uso.Since the charges for the cluster are many times more than the charges for storage, it makes economic sense to delete clusters when they aren't in use.

Para excluir um cluster, confira Delete an HDInsight cluster using your browser, PowerShell, or the Azure CLI (Excluir um cluster HDInsight usando o navegador, o PowerShell ou a CLI do Azure).To delete a cluster, see Delete an HDInsight cluster using your browser, PowerShell, or the Azure CLI.

Próximas etapasNext steps

Neste tutorial, você aprendeu a usar o Microsoft Power BI para visualizar dados em um cluster do Apache Spark no Azure HDInsight.In this tutorial, you learned how to use Microsoft Power BI to visualize data in an Apache Spark cluster in Azure HDInsight. Avance para o próximo artigo para ver como os dados que você registrou no Spark podem ser removidos em uma ferramenta de análise de BI, assim como Power BI.Advance to the next article to see how the data you registered in Spark can be pulled into a BI analytics tool such as Power BI.