Limpar e transformar dados com o Power Query Editor

Concluído

Agora que nos ligámos a uma origem de dados com o Microsoft Power BI Desktop, temos de ajustar os dados de acordo com as nossas necessidades. Por vezes, ajustar significa transformar os dados, por exemplo, mudar o nome de colunas ou tabelas, converter texto em números, remover linhas ou definir a primeira linha como cabeçalho.

Para além de ter tarefas disponíveis no friso, o Editor do Power Query no Power BI Desktop faz uma utilização extensiva de menus de contexto (também conhecidos como menus de atalho). A maioria dos comandos que pode selecionar no separador Transformar do friso também está disponível ao clicar com o botão direito do rato num item (como uma coluna) e, em seguida, selecionar um comando no menu de contexto apresentado.

Formatar dados

Ao formatar dados no Editor do Power BI, está a fornecer instruções passo a passo que o Editor do Power Query irá seguir para ajustar os dados à medida que são carregados e apresentados. Os dados originais não são afetados. Apenas esta vista específica dos dados é ajustada, ou formatada.

Os passos que especificar (por exemplo mudar o nome de uma tabela, transformar um tipo de dados ou eliminar colunas) são registados pelo Editor do Power Query. Estes passos serão seguidos sempre que a consulta se ligar à origem de dados, de forma a que os dados sejam sempre formatados da forma que especificar. Este processo ocorrerá sempre que utilizar a consulta no Power BI Desktop ou sempre que alguém utilizar a sua consulta partilhada (por exemplo, no serviço Power BI). Os passos são capturados sequencialmente no painel Definições do Power Query, em Passos Aplicados.

A seguinte imagem apresenta o painel Definições da Consulta de uma consulta que foi formatada. Iremos explicar cada um dos passos nos parágrafos seguintes.

Definições de Consulta

Vamos voltar aos dados de reformas que encontrámos ao ligar a uma origem de dados da Web e vamos formatar esses dados de acordo com as nossas necessidades.

Nota

Se não tiver transferido o conjunto de dados de exemplo, consulte a página da unidade anterior.

Precisamos que os dados sejam números. Neste caso, está tudo bem, mas se alguma vez precisar de alterar o tipo de dados, basta clicar com o botão direito do rato no cabeçalho da coluna e selecionar Alterar Tipo > Número Inteiro. Se tiver de alterar mais do que uma coluna, selecione uma delas e, em seguida, mantenha a tecla Shift premida enquanto seleciona mais colunas adjacentes. Em seguida, clique com o botão direito do rato num cabeçalho de coluna para alterar todas as colunas selecionadas. Também pode utilizar a tecla Ctrl para selecionar colunas não adjacentes.

Tipo de alteração do passo aplicado

Nota

Muitas vezes, o Power Query irá detetar se uma coluna de texto deve ser constituída por números e irá alterar automaticamente o tipo de dados quando importar a tabela para o Editor do Power Query. Neste caso, um passo nos Passos aplicados identifica o que o Power Query fez de forma automática.

Também pode alterar, ou transformar, essas colunas de texto para cabeçalhos através do separador Transformar do friso. A imagem seguinte mostra o separador Transformar . A caixa vermelha realça o botão Tipo de Dados , que lhe permite transformar o tipo de dados atual noutro.

O friso Transformar e o botão Tipo de Dados

Tenha em atenção que a lista Passos Aplicados, no painel Definições da Consulta, reflete todas as alterações feitas. Para remover um passo do processo de formatação, basta selecionar o passo e, em seguida, selecionar o X à esquerda do mesmo.

Janela Definições da Consulta

Ligar a dados

Os dados relativos a diferentes estados são interessantes e serão úteis para a compilação de análises e consultas adicionais. Contudo, há um problema: a maioria dos dados existentes utiliza uma abreviatura de duas letras para os códigos de estado e não o nome completo do estado. Por este motivo, precisamos de alguma forma de associar os nomes dos estados às abreviaturas.

Estamos com sorte: há outra origem de dados pública que faz exatamente isso, mas precisa de ser sujeita a alguma formatação antes de a podermos ligar à nossa tabela de reformas. Eis o recurso Web para as abreviaturas de estados:

http://en.wikipedia.org/wiki/List_of_U.S._state_abbreviations

No Editor do Power Query no separador Base do friso, selecione Nova Origem > Web. Em seguida, introduza o endereço e selecione OK. A janela Navegador apresenta o que encontrou nessa página Web.

Abreviaturas dos estados dos E.U.A. do site

Selecione a tabela Códigos e abreviaturas... porque inclui os dados que pretendemos, mas será necessária bastante formatação para restringir esses dados.

Selecione Carregar para importar os dados para o Editor do Power Query, para os podermos formatar. Em seguida, siga estes passos:

  • Remover as primeiras três linhas – estas linhas resultam da forma como a tabela da página Web foi criada e não precisamos delas. Para removê-las, no separador Base do friso, selecione Remover linhas > Remover Linhas Principais. Na caixa de diálogo apresentada, introduza 3 como o número de linhas a remover.

    Remover as primeiras linhas

  • Remover as últimas 26 linhas – estas linhas são todos os territórios, que não precisamos de incluir. O processo é o mesmo, mas agora selecione Remover linhas > Remover Linhas Inferiores e escreva 26 como o número de linhas a remover.

    Remover as últimas linhas

  • Filtrar para excluir Washington DC – a tabela de estatísticas de reformas não inclui Washington DC, por isso vamos excluí-la da nossa lista. Selecione a seta pendente ao lado da coluna Estado federal e, em seguida, desmarque a caixa de verificação Distrito federal .

    Remover uma linha com um determinado valor

  • Remover algumas colunas desnecessárias – só precisamos do mapeamento de cada estado para a abreviatura oficial de duas letras e essas informações são fornecidas na primeira e quarta colunas. Por este motivo, só precisamos de manter essas duas colunas e podemos remover todas as outras. Selecione a primeira coluna a remover e, em seguida, mantenha a tecla Ctrl premida enquanto seleciona as outras colunas a remover (isto permite-lhe selecionar múltiplas colunas não adjacentes). Em seguida, no separador Base do friso, selecione Remover Colunas > Remover Colunas.

    Remover colunas específicas

  • Utilizar a primeira linha como cabeçalho – dado que removemos as primeiras três linhas, a primeira linha atual é o cabeçalho que pretendemos. Selecione o botão Utilizar primeira linha como cabeçalhos.

    Utilizar a primeira linha como cabeçalho

    Nota

    Esta é uma boa altura para salientar que a sequência dos passos aplicados no Editor do Power Query é importante e pode afetar a forma como os dados são formatados. Também é importante ter em mente a forma como um passo pode afetar outro passo subsequente. Se remover um passo da lista Passos Aplicados, os passos subsequentes poderão não ter o comportamento inicialmente pretendido, devido ao impacto da sequência dos passos da consulta.

  • Mudar o nome das colunas e da própria tabela – como sempre, existem algumas formas de mudar o nome de uma coluna. Pode utilizar a forma que preferir. Vamos então mudar os nomes para State Name e State Code. Para mudar o nome da tabela, introduza o nome no campo Nome no painel Definições da Consulta. Vamos chamar a esta tabela StateCodes.

    Mudar o nome das colunas

Combinar dados

Agora que a tabela StateCodes está formatada, podemos combinar as nossas duas tabelas numa só. Como as tabelas que temos agora são um resultado das consultas que aplicámos aos dados, estas são geralmente designadas por consultas.

Existem duas formas principais de combinar consultas: intercalação e acréscimo.

Quando tem uma ou mais colunas que pretende adicionar a outra consulta, pode intercalar as consultas. Quando tem linhas adicionais de dados que pretende adicionar a uma consulta existente, pode acrescentar a consulta.

Neste caso, queremos intercalar as consultas. Para começar, selecione a consulta que pretende intercalar com a outra consulta. Em seguida, no separador Base do friso, selecione Intercalar Consultas. Queremos selecionar primeiro a nossa consulta de reformas. Vamos aproveitar para mudar o nome dessa consulta para RetirementStats.

Botão Intercalar Consultas

É apresentada a caixa de diálogo Intercalar, que nos pede para selecionar a tabela que pretendemos intercalar com a tabela selecionada e depois as colunas correspondentes que pretendemos utilizar para a intercalação.

Selecione State na tabela (consulta) RetirementStats e, em seguida, selecione a consulta StateCodes. (Neste caso, a escolha é fácil, porque existe apenas uma outra consulta. Contudo, quando se liga a muitas origens de dados, existem muitas consultas à sua escolha.) Depois de selecionar as colunas correspondentes corretas ( Estado em RetirementStats e Nome do Estado de StateCodes), a caixa de diálogo Intercalar terá o seguinte aspeto e o botão OK ficará disponível.

Caixa de diálogo Intercalar

É criada uma coluna NovaColuna no final da consulta, que corresponde aos conteúdos da tabela (consulta) que foi intercalada com a consulta existente. Todas as colunas da consulta intercalada são condensadas na coluna NovaColuna, mas pode expandir a tabela e incluir as colunas que quiser. Para expandir a tabela unida e selecionar as colunas a incluir, selecione o ícone expandir (ícone expandir). É apresentada a caixa de diálogo Expandir.

Caixa de diálogo Expandir

Neste caso, só queremos a coluna State Code. Por isso, selecione apenas essa coluna e selecione OK. Também pode desselecionar a caixa de verificação Utilizar o nome de coluna original como prefixo. Se deixar esta caixa selecionada, a coluna intercalada terá o nome NovaColuna.State Code (o nome da coluna original, ou NovaColuna, seguido de um ponto e o nome da coluna inserida na consulta).

Nota

Se quiser, pode experimentar outras formas de inserir a tabela NovaColuna. Se não ficar satisfeito com os resultados, elimine o passo Expandir da lista Passos Aplicados no painel Definições da Consulta. A sua consulta irá voltar ao estado em que se encontrava antes de aplicar esse passo. É um processo livre que pode executar as vezes que quiser até o processo de expansão se assemelhar ao que pretende.

Agora temos uma única consulta (tabela) que combina duas origens de dados, tendo cada uma delas sido formatada para satisfazer as nossas necessidades. Esta consulta pode servir como base para muitas ligações de dados adicionais e interessantes, por exemplo estatísticas de custo de alojamento, dados demográficos ou oportunidades de trabalho em qualquer estado.

Para aplicar as alterações no Editor do Power Query e carregá-las para o Power BI Desktop, selecione Fechar e Aplicar no separador Base do friso.

Fechar e aplicar definições de dados

Os dados no seu modelo estão prontos para serem utilizados. Em seguida, vamos criar alguns elementos visuais para o seu relatório.

Por agora, temos dados suficientes para criar alguns relatórios interessantes no Power BI Desktop. Como se trata de um marco, vamos guardar este ficheiro do Power BI Desktop. Para guardar o relatório, selecioneFicheiro > Guardar no separador Base do friso. Vamos dar-lhe o nome Introdução ao Power BI Desktop.

Ótimo! Vamos então passar para a unidade seguinte, onde iremos criar alguns elementos visuais interessantes.