Práticas recomendadas para reutilizar fluxos de dados nos ambientes e workspaces

Este artigo discute as práticas recomendadas para reutilizar fluxos de dados de forma eficaz e eficiente. Leia este artigo para evitar armadilhas de design e possíveis problemas de desempenho ao desenvolver fluxos de dados para reutilização.

Separe os fluxos de dados de transformação de dados dos fluxos de dados de preparo/extração

Se um fluxo de dados executar todas as ações, será difícil reutilizar suas tabelas em outros fluxos de dados ou para outros fins. Os melhores fluxos de dados para reutilização são os fluxos de dados que fazem apenas algumas ações. Criar fluxos de dados especializados em uma tarefa específica é uma das melhores formas de reutilizá-los. Se você tiver um conjunto de fluxos de dados que usa como fluxos de dados de preparo, a única ação disponível será a de extrair dados como estão do sistema de origem. Esses fluxos de dados podem ser reutilizados em vários outros fluxos.

Se você tiver fluxos de transformação de dados, poderá dividi-los em fluxos de dados que fazem transformações comuns. Cada fluxo de dados pode fazer apenas algumas ações. Essas poucas ações por fluxo garantem que a saída desse fluxo de dados seja reutilizável por outros fluxos de dados.

Dataflow doing only a few actions.

Imagem com dados sendo extraídos de uma fonte de dados para fluxos de dados de preparo, onde as tabelas são armazenadas no Dataverse ou Azure Data Lake Storage. Em seguida, os dados são movidos para fluxos de dados de transformação, onde os dados são transformados e convertidos na estrutura do Data Warehouse. Por fim, os dados são carregados em um modelo semântico do Power BI.

Vários espaços de trabalho:

Cada espaço de trabalho (ou ambiente) está disponível apenas para membros desse espaço de trabalho. Se você criar todos os fluxos de dados em um único espaço de trabalho, vai minimizar a reutilização de seus fluxos de dados. Você pode ter alguns espaços de trabalho genéricos para fluxos de dados que estão processando tabelas em toda a empresa. Você também pode ter algum espaço de trabalho para fluxos de dados para processar tabelas em vários departamentos. E também pode ter alguns espaços de trabalho para fluxos de dados usados somente em departamentos específicos.

Image showing the separate workspaces.

Definir os níveis de acesso corretos em espaços de trabalho

Para dar acesso a fluxos de dados em outros espaços de trabalho e usar a saída de um fluxo de dados em um espaço de trabalho, basta dar a eles acesso de exibição no espaço de trabalho. Para saber mais sobre outras funções em um espaço de trabalho do Power BI, acesse funções nos novos espaços de trabalho.

Screenshot showing how to access to the Power BI workspace.

Endosso no fluxo de dados no Power BI

Pode haver muitos fluxos de dados criados em uma organização de locatário e pode ser difícil para os usuários saberem qual fluxo é mais confiável. Os autores de um fluxo de dados, ou aqueles usuários que têm acesso de edição a ele, podem endossar o fluxo de dados em três níveis: sem endosso, promovido ou certificado.

Esses níveis de endosso ajudam os usuários a encontrar fluxos de dados confiáveis cada vez mais rápidos. O fluxo de dados com um nível de endosso mais alto aparece primeiro. O administrador do Power BI pode delegar a capacidade de endossar fluxos de dados para o nível certificado para outras pessoas. Mais informações: Endosso – Como promover e certificar o conteúdo do Power BI

Screenshot of the Power Query Navigator showing the promoted and certified endorsement labels on specific dataflows.

Separar tabelas em vários fluxos de dados

Você pode ter várias tabelas em um fluxo de dados. Uma das razões pelas quais você pode dividir tabelas em vários fluxos de dados é o que você aprendeu anteriormente neste artigo sobre como separar os fluxos de dados de ingestão e transformação de dados. Outro bom motivo para ter tabelas em vários fluxos de dados é quando você deseja obter uma agenda de atualização diferente de outras tabelas.

No exemplo mostrado na imagem a seguir, a tabela de vendas precisa ser atualizada a cada quatro horas. A tabela de datas precisa ser atualizada apenas uma vez por dia para manter o registro de data atual atualizado. E uma tabela de mapeamento de produto só precisa ser atualizada uma vez por semana. Se você tiver todas essas tabelas em um fluxo de dados, terá apenas uma opção de atualização para todas elas. No entanto, se você dividir essas tabelas em vários fluxos de dados, poderá agendar a atualização de cada fluxo de dados separadamente.

Image showing dataflows with different schedules for the refresh.

Bons candidatos a tabelas para tabelas de fluxo de dados

Ao desenvolver soluções usando Power Query nas ferramentas da área de trabalho, a dúvida mais comum é: quais dessas tabelas são boas candidatas a serem movidas para um fluxo de dados? As melhores tabelas a serem movidas para o fluxo de dados são aquelas tabelas que precisam ser usadas em mais de uma solução ou em mais de um ambiente ou serviço. Por exemplo, a tabela “Data” mostrada na imagem a seguir precisa ser usada em dois arquivos separados do Power BI. Em vez de duplicar essa tabela em cada arquivo, você pode criar a tabela em um fluxo de dados como uma tabela e reutilizá-la nesses arquivos do Power BI.

Image showing a shared table used in a dataflow.