Laboratório – Preparar dados no Power BI Desktop

Visão geral

O tempo estimado para concluir o laboratório é de 45 minutos

Neste laboratório, você começará o desenvolvimento de uma solução do Power BI Desktop para a empresa Adventure Works. Ela envolve a conexão com os dados de origem, a visualização dos dados e o uso de técnicas de visualização de dados para entender as características e a qualidade dos dados de origem.

Neste laboratório, você aprenderá a:

  • Abrir o Power BI Desktop
  • Definir opções do Power BI Desktop
  • Conectar-se a dados de origem
  • Visualizar dados de origem
  • Usar técnicas de visualização de dados para entender melhor os dados

Preparar dados

Neste exercício, você criará oito consultas do Power BI Desktop. Seis consultas obterão dados do SQL Server e duas, de arquivos CSV.

Salvar o arquivo do Power BI Desktop

Nesta tarefa, primeiro você salvará o arquivo do Power BI Desktop.

  1. Abra o Power BI Desktop. Clique na guia Arquivo da faixa de opções para abrir o modo de exibição Backstage.

  2. Selecione Salvar.

  3. Na janela Salvar como, navegue até a pasta D:\DA100\MySolution.

  4. Na caixa Nome do Arquivo, insira Análise de Vendas.

    Captura de tela da caixa Nome do arquivo

  5. Clique em Salvar.

Tip

Você também pode salvar o arquivo clicando no ícone Salvar localizado na parte superior direita.

Definir opções do Power BI Desktop

Nesta tarefa, você definirá opções do Power BI Desktop.

  1. No Power BI Desktop, clique na guia Arquivo da faixa de opções para abrir o modo de exibição Backstage.

  2. À esquerda, selecione Opções e Configurações e, em seguida, selecione Opções.

    Captura de tela de Opções e Configurações

  3. Na janela Opções, à esquerda, no grupo Arquivo Atual, selecione Carregamento de Dados.

    As configurações de Carregamento de Dados para o arquivo atual permitem definir opções que determinam comportamentos padrão durante a modelagem.

  4. No grupo Relações, desmarque as duas opções que estão marcadas.

    Captura de tela das opções de Relações

    Embora essas duas opções possam ser úteis ao desenvolver um modelo de dados, elas foram desabilitadas para compatibilidade com a experiência do laboratório. Ao criar relações no Laboratório 03A, você aprenderá por que está adicionando cada uma delas.

  5. Clique em OK.

  6. Salve o arquivo do Power BI Desktop.

Obter dados do SQL Server

Nesta tarefa, você criará consultas com base em tabelas do SQL Server.

  1. Na guia Página Inicial da faixa de opções, dentro do grupo Dados, clique em SQL Server.

  2. Na janela Banco de Dados SQL Server, na caixa Servidor, insira localhost.

    Nos laboratórios, você se conectará ao banco de dados do SQL Server usando localhost. No entanto, essa não é uma prática recomendada ao criar suas próprias soluções. Isso porque as fontes de dados de gateway não conseguem resolver localhost.

  3. Clique em OK.

  4. Observe que a autenticação padrão é Usar minhas credenciais atuais.

    Captura de tela da janela de autenticação

  5. Clique em Conectar.

  6. Quando questionado sobre o suporte à criptografia, clique em OK.

  7. Na janela Navegador, à esquerda, expanda o banco de dados AdventureWorksDW2020.

    O banco de dados AdventureWorksDW2020 é baseado no banco de dados de exemplo AdventureWorksDW2017. Ele foi modificado para ficar compatível com os objetivos de aprendizado dos laboratórios do curso.

  8. Selecione, mas não marque a tabela DimEmployee.

    Captura de tela da opção DimEmployee

  9. No painel direito, observe uma visualização da tabela.

    A visualização permite que você determine as colunas e uma amostra de linhas.

  10. Para criar consultas, verifique as seis tabelas a seguir:

- DimEmployee
- DimEmployeeSalesTerritory
- DimProduct
- DimReseller
- DimSalesTerritory
- FactResellerSales
  1. Para aplicar transformações aos dados das tabelas selecionadas, clique em Transformar Dados.

    Você não transformará os dados neste laboratório. Os objetivos deste laboratório são explorar e criar o perfil dos dados na janela Editor do Power Query.

Visualizar consultas do SQL Server

Nesta tarefa, você visualizará os dados das consultas do SQL Server. Primeiro, você entenderá informações relevantes sobre os dados. Você também usará as ferramentas de qualidade de coluna, distribuição de coluna e perfil de coluna para ter compreensão sobre os dados e avaliar a qualidade dos dados.

  1. Na janela Editor do Power Query, à esquerda, observe o painel Consultas.

    O painel Consultas contém uma consulta para cada tabela selecionada.

  2. Selecione a primeira consulta DimEmployee.

    A tabela DimEmployee armazena uma linha para cada funcionário. Um subconjunto das linhas representa os vendedores, que serão relevantes para o modelo que você desenvolverá.

  3. Na parte inferior esquerda, na barra de status, observe as estatísticas da tabela: a tabela tem 33 colunas e 296 linhas.

    Captura de tela da barra de status

  4. No painel de visualização de dados, role horizontalmente para examinar todas as colunas.

  5. Observe que as últimas cinco colunas contêm links de Tabela ou Valor.

    Essas cinco colunas representam relações com outras tabelas no banco de dados. Elas podem ser usadas para unir tabelas. Você unirá tabelas no Laboratório 03A.

  6. Para avaliar a qualidade da coluna, na guia Exibição da faixa de opções, dentro do grupo Visualização de Dados, marque Qualidade da Coluna.

    Captura de tela da guia Exibir da faixa de opções

A qualidade da coluna permite que você determine facilmente o percentual de valores válidos, com erro ou vazios.

  1. Para a coluna Posição (sexta coluna, do final para o início), observe que 94% das linhas estão vazias (nulas).

    Captura de tela da coluna Posição

  2. Para avaliar a distribuição da coluna, na guia Exibição da faixa de opções, dentro do grupo Visualização de Dados, marque Distribuição da Coluna.

  3. Examine a coluna Posição novamente e observe que há quatro valores distintos e um valor exclusivo.

  4. Examine a distribuição de coluna para a coluna EmployeeKey (primeira) – há 296 valores distintos e 296 valores exclusivos.

    Captura de tela da distribuição de coluna

    Quando as contagens distintas e exclusivas são as mesmas, isso significa que a coluna contém valores exclusivos. Ao modelar, é importante que algumas tabelas contenham colunas exclusivas. Elas serão usadas para criar relações de um para muitos.

  5. No painel Consultas, selecione a consulta DimEmployeeSalesTerritory.

    A tabela DimEmployeeSalesTerritory armazena uma linha para cada funcionário e para as regiões do território de vendas que eles gerenciam. A tabela é compatível com a relação de várias regiões com um único funcionário. Alguns funcionários gerenciam uma, duas ou possivelmente mais regiões. Ao modelar esses dados, será necessário definir uma relação de muitos para muitos.

  6. No painel Consultas, selecione a consulta DimProduct.

    A tabela DimProduct contém uma linha por produto vendido pela empresa.

  7. Role horizontalmente para revelar as últimas colunas.

  8. Observe a coluna DimProductSubcategory.

    Se você adicionasse transformações a essa consulta, usaria a coluna DimProductSubcategory para unir tabelas.

  9. No painel Consultas, selecione a consulta DimReseller.

    A tabela DimReseller contém uma linha por revendedor. Os revendedores vendem, distribuem ou agregam valor aos produtos da Adventure Works.

  10. Para exibir valores da coluna, na guia Exibição da faixa de opções, dentro do grupo Visualização de Dados, marque Perfil da Coluna.

    Captura de tela de valores de coluna

  11. Selecione o cabeçalho de coluna Businesstype.

  12. Observe que um novo painel é aberto abaixo do painel de visualização de dados.

  13. Examine as estatísticas da coluna e a distribuição de valor.

  14. Observe o problema de qualidade dos dados: há dois rótulos para Warehouse (Warehouse e Ware House com grafia incorreta).

Captura de tela da distribuição de valor com dois rótulos: Warehouse e Ware House

  1. Passe o mouse sobre a barra Ware House e observe que há cinco linhas com esse valor.

  2. No painel Consultas, selecione a consulta DimSalesTerritory.

    A tabela DimSalesTerritory contém uma linha por região de vendas, incluindo a Matriz Corporativa (sede). As regiões são atribuídas a um país e os países são atribuídos a grupos.

  3. No painel Consultas, selecione a consulta FactResellerSales.

    A tabela FactResellerSales contém uma linha por linha de pedido de venda. Um pedido de venda contém um ou mais itens de linha.

  4. Examine a qualidade de coluna para a TotalProductCost e observe que 8% das linhas estão vazias.

    Captura de tela da qualidade da coluna

    Os valores de TotalProductCost ausentes são um problema de qualidade de dados. Para resolver o problema, você pode aplicar transformações para preencher os valores ausentes usando o custo padrão do produto, que está armazenado na tabela DimProduct.

Importar dados de um arquivo CSV

Nesta tarefa, você criará uma consulta com base em um arquivo CSV.

  1. Para adicionar uma nova consulta, na janela Editor do Power Query, na guia Página Inicial da faixa de opções, dentro do grupo Nova Consulta, clique na seta para baixo Nova Fonte e selecione Texto/CSV.

    Captura de tela do botão Nova Fonte na guia Página Inicial da faixa de opções

  2. Na janela Abrir, navegue até a pasta D:\DA100\Data e selecione o arquivo ResellerSalesTargets.csv.

  3. Clique em Abrir.

  4. Na janela ResellerSalesTargets.csv, observe a visualização de dados.

  5. Clique em OK.

  6. No painel Consultas, observe a adição da consulta ResellerSalesTargets.

    O arquivo CSV ResellerSalesTargets contém uma linha por vendedor, por ano. Cada linha registra 12 metas de vendas mensais (expressas em milhares). O ano comercial da empresa Adventure Works começa em 1º de julho.

  7. Observe que nenhuma coluna contém valores vazios. Quando não há uma meta de vendas mensal, um caractere de hífen é armazenado em seu lugar.

  8. Examine os ícones de cada cabeçalho de coluna à esquerda do nome da coluna.

    Captura de tela do ícone nos cabeçalhos de coluna

    Os ícones representam o tipo de dados da coluna. 123 é número inteiro e ABC é texto.

Obter dados adicionais de um arquivo CSV

Nesta tarefa, você criará uma consulta adicional com base em um arquivo CSV diferente.

  1. Use as etapas na tarefa anterior para criar uma consulta baseada no arquivo D:\DA100\Data\ColorFormats.csv.

    O arquivo CSV ColorFormats contém uma linha por cor de produto. Cada linha registra os códigos hexadecimais para formatar cores de tela de fundo e de fonte.

Concluir

Nesta tarefa, você concluirá o laboratório.

  1. Na guia Exibir da faixa de opções, dentro do grupo Visualizar Dados, desmarque as três opções de visualização de dados:
  • Qualidade da coluna

  • Distribuição de colunas

  • Perfil da coluna

    Captura de tela das opções de visualização de dados

  1. Para salvar o arquivo do Power BI Desktop, na exibição de Backstage Arquivo, selecione Salvar.

  2. Quando for solicitado a aplicar as consultas, clique em Aplicar depois.

    A aplicação das consultas carregará os dados no modelo de dados. Você não está pronto para fazer isso, pois há muitas transformações que devem ser aplicadas primeiro.

  3. Deixe o Power BI Desktop aberto.