Configurar o armazenamento de Fluxos de dados para usar o Azure Data Lake Gen 2

Por padrão, os dados usados no Power BI são armazenados em um armazenamento interno fornecido pelo Power BI. Com a integração de fluxos de dados ao ADLS Gen2 (Azure Data Lake Storage Gen 2), será possível armazenar fluxos de dados na conta do Azure Data Lake Storage Gen2 da sua organização. Esse recurso basicamente permitirá "trazer seu armazenamento" para os fluxos de dados do Power BI e estabelecer uma conexão no nível do locatário ou workspace.

Motivos para usar o workspace do ADLS Gen 2 ou a conexão do locatário

Depois que você anexar o fluxo de dados, o Power BI vai configurar e salvar uma referência para que seja possível ler e gravar dados em seu ADLS Gen 2. O Power BI armazenará os dados no formato CDM (modelo de dados comum), que captura metadados sobre seus dados, além dos dados reais gerados pelo fluxo de dados. Esse recurso vai desbloquear várias funcionalidades avançadas e permitir que seus dados e os metadados associados no formato CDM forneçam cenários de extensibilidade, automação, monitoramento e backup. Quando você torna esses dados disponíveis e amplamente acessíveis em seu ambiente, o Power BI permitirá democratizar insights e dados criados na organização. Ele também desbloqueia a capacidade de criar outras soluções com uma ampla variedade de complexidades. Suas soluções podem ser soluções e aplicativos personalizados com reconhecimento de CDM no Power Platform, no Azure e aqueles disponíveis por meio de ecossistemas de ISV (fornecedores de software independentes) e parceiros. Ou você pode criar um aplicativo para ler um CSV. Os engenheiros de dados, além dos cientistas e analistas de dados, agora podem usar e reutilizar um conjunto comum de dados coletados no ADLS Gen 2, bem como trabalhar com ele.

Há dois modos de configurar qual repositório do ADLS Gen 2 usar: é possível usar uma conta do ADLS Gen 2 atribuída a um locatário ou trazer seu repositório do ADLS Gen 2 a um nível do workspace.

Pré-requisitos

  • Para trazer sua conta do ADLS Gen 2, será necessário ter permissão de Proprietário na camada da conta de armazenamento. As permissões que estiverem no nível do grupo de recursos ou da assinatura não funcionarão. Caso seja um administrador, você ainda deverá atribuir a si mesmo uma permissão de Proprietário. Atualmente, não há suporte a Contas de Armazenamento do ADLS Gen2 por trás de um firewall.

  • A conta de armazenamento deverá ser criada com o HNS (Namespace Hierárquico) habilitado.

  • A conta de armazenamento deve ser criada no mesmo locatário do Microsoft Entra que o Locatário do Power BI.

  • O usuário deve ter a função de Proprietário de Dados e a função de Leitor de Dados do Blob de Armazenamento e uma função de Proprietário no nível da conta de armazenamento (o escopo deve ser este recurso, e não herdado). Qualquer alteração de função aplicada poderá levar alguns minutos para ser sincronizada e deverá ser sincronizada antes que as etapas a seguir possam ser concluídas no serviço do Power BI.

  • A região do locatário do workspace do Power BI deve ser igual à região da conta de armazenamento.

  • O protocolo TLS versão 1.2 (ou superior) é necessário para proteger seus pontos de extremidade. Os navegadores da Web e outros aplicativos cliente que usarem versões do TLS anteriores ao TLS 1.2 não poderão se conectar.

  • Não há suporte para a anexação de um fluxo de dados com o ADLS Gen 2 por trás da MFA (autenticação multifator).

  • Por fim, é possível se conectar ao ADLS Gen 2 no portal do Administrador. No entanto, caso se conecte diretamente a um workspace, primeiro será necessário verificar se não há fluxos de dados no workspace antes da conexão.

Observação

O recurso "Traga seu próprio armazenamento" (Azure Data Lake Gen 2) não está disponível no serviço Power BI para clientes do GCC do Governo dos EUA. Para obter mais informações sobre quais recursos estão disponíveis e quais não estão, confira Disponibilidade de recursos do Power BI para clientes do Governo dos EUA.

A seguinte tabela descreverá quais permissões para o ADLS e o Power BI são necessárias para o ADLS Gen 2 e o Power BI:

Ação Permissões do ADLS Permissões mínimas do Power BI
Conectar o ADLS Gen 2 ao locatário do Power BI Proprietário Administrador do Power BI
Conectar o ADLS Gen 2 ao workspace Proprietário Administrador do espaço de trabalho
Criar fluxos de dados do Power BI com write-back para uma conta do ADLS conectada Não aplicável Colaborador do workspace
Consumir fluxos de dados do Power BI Não aplicável Visualizador do workspace

Conectar-se ao Azure Data Lake Gen 2 no nível de um workspace

Navegue até um workspace que não tenha fluxos de dados. Selecione Configurações do workspace. Escolha a guia Conexões do Azure e clique na seção Armazenamento.

Screenshot of the Workspace settings pane on the Azure connections tab.

Caso o administrador já tenha configurado uma conta do ADLS Gen 2 atribuída a um locatário, a opção Usar uma conexão padrão do Azure estará visível. Você tem duas opções:

  • Use a conta do ADLS Gen 2 configurada pelo locatário selecionando uma caixa chamada Usar a conexão padrão do Azure ou
  • Selecione Conectar ao Azure para indicar uma nova conta de Armazenamento do Azure.

Quando você clicar na opção Conectar ao Azure, o Power BI vai recuperar uma lista de assinaturas do Azure às quais você tem acesso. Preencha as listas suspensas. Em seguida, escolha uma assinatura do Azure, um grupo de recursos e uma conta de armazenamento válidos que tenham a opção de namespace hierárquico habilitada, que será o sinalizador do ADLS Gen2. A conta pessoal usado para se conectar ao Azure é usada apenas uma vez, para definir a conexão inicial e conceder direitos de conta para ler e gravar dados aos serviço do Power BI, após os quais a conta de usuário original não é mais necessária para manter a conexão ativa.

Screenshot of the Settings window after choosing Connecting to Azure.

Após escolher uma assinatura, clique em Salvar. Agora você conectou o workspace à sua conta do ADLS Gen2 com êxito. O Power BI configurará a conta de armazenamento de maneira automática com as permissões necessárias e definirá o sistema de arquivos do Power BI no qual os dados serão gravados. Nesse momento, todos os dados do fluxo de dados dentro do workspace gravarão diretamente nesse sistema de arquivos, que poderá ser usado com outros serviços do Azure. Agora, você tem uma fonte para todos os seus dados da organização e dos departamentos.

Configuração de conexões do Azure

A configuração de conexões do Azure é uma configuração opcional com propriedades adicionais que podem ser definidas opcionalmente:

  • Armazenamento no nível do locatário, que permite definir um padrão, e/ou
  • Armazenamento no nível do workspace, que permite especificar a conexão por workspace

Opcionalmente, você poderá configurar o armazenamento no nível dos locatários, se desejar usar apenas um data lake centralizado ou desejar que esse armazenamento seja a opção padrão. Não começamos a usar o padrão automaticamente para permitir flexibilidade em sua configuração, então você tem a flexibilidade de configurar os workspaces que usam essa conexão do modo que achar melhor. Se você configurar uma conta do ADLS Gen 2 atribuída ao locatário, ainda precisará configurar cada workspace para usar essa opção padrão.

Você pode, opcional ou adicionalmente, configurar permissões de armazenamento no nível do workspace como uma opção separada, oferecendo flexibilidade completa para definir uma conta específica do ADLS Gen 2 em cada workspace.

Para resumir, se as permissões de armazenamento no nível dos locatários e de armazenamento no nível do workspace forem permitidas, os administradores do workspace poderão, opcionalmente, usar a conexão ADLS padrão ou optar por configurar outra conta de armazenamento separada do padrão. Se o armazenamento de locatário não estiver definido, os administradores do workspace poderão opcionalmente configurar contas ADLS em cada workspace. Por fim, se o armazenamento no nível dos locatários for selecionado e o armazenamento no nível do workspace não for permitido, os administradores do workspace poderão, opcionalmente, configurar seus fluxos de dados para usar essa conexão.

Estrutura e formato de conexões do workspace do ADLS Gen 2

Na conta de armazenamento do ADLS Gen 2, todos os fluxos de dados são armazenados no contêiner do sistema de arquivos do powerbi.

A estrutura do contêiner do powerbi tem esta aparência: <workspace name>/<dataflow name>/model.json, <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots> e <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

O local no qual os fluxos de dados armazenam dados na hierarquia de pastas para o ADLS Gen 2 é o mesmo pelo fato de o workspace estar localizado em capacidade compartilhada ou capacidade Premium.

O exemplo a seguir usa a tabela de Pedidos do exemplo Northwind Odata.

Screenshot of the file explorer showing an example using the Orders table of the Northwind Odata sample.

Na imagem anterior:

  • O arquivo model.json é a versão mais recente do fluxo de dados.
  • O arquivo model.json.snapshots representa todas as versões anteriores do fluxo de dados. Caso precise de uma versão anterior do mashup ou configurações incrementais, esse histórico será útil.
  • O nome da tabela é a pasta que contém os dados resultantes após a conclusão de uma atualização de fluxo de dados.

Essa conta de armazenamento é usada somente para gravação e atualmente não é possível excluir dados nela. Sendo assim, mesmo após a desanexação, os dados não serão excluídos da conta do ADLS, de modo que todos os arquivos mencionados na lista anterior ainda serão armazenados.

Observação

Os fluxos de dados permitem vincular ou referenciar tabelas em outros fluxos de dados. Nesses fluxos de dados, o arquivo model.json pode se referir a outro model.json de outro fluxo de dados no mesmo ou em outro workspace.

Mover arquivos entre/dentro de contas de armazenamento ADLS Gen 2

Ao mover um fluxo de dados de uma conta de armazenamento ADLS Gen2 para outra, certifique-se de que os caminhos no arquivo model.json sejam atualizados para refletir o novo local. Isso ocorre porque o arquivo model.json contém o caminho para o fluxo de dados e o caminho para os dados. Se você não atualizar os caminhos, o fluxo de dados não conseguirá encontrar os dados e causará erros de permissão. Para atualizar os caminhos, você pode usar as etapas a seguir:

  • Abra o arquivo model.json em um editor de texto.
  • Localize a URL da conta de armazenamento e substitua-a pela nova URL da conta de armazenamento.
  • Salve o arquivo.
  • Substitua o arquivo model.json existente na conta de armazenamento do ADLS Gen2.

Usar a extensibilidade em conexões de um workspace do ADLS Gen 2

Caso esteja conectando o ADLS Gen 2 ao Power BI, será possível executar essa ação no nível do workspace ou locatário. Verifique se você tem o nível de acesso adequado. Saiba mais em Pré-requisitos.

A estrutura de armazenamento vai aderir ao formato do Common Data Model. Saiba mais sobre a estrutura de armazenamento e o CDM acessando os artigos Qual é a estrutura de armazenamento para os fluxos de dados analíticos? e Usar o Common Data Model para otimizar o Azure Data Lake Storage Gen2.

Será possível controlar os dados e os metadados após configurá-los de modo adequado. Muitos aplicativos estão cientes do CDM e os dados podem ser estendidos usando o Azure, o PowerApps e o PowerAutomate. Você também pode usar ecossistemas de terceiros em conformidade com o formato ou lendo os dados brutos.

Desanexar o Azure Data Lake Gen 2 de um workspace ou locatário

Para remover uma conexão no nível do workspace, primeiro você deverá garantir que todos os fluxos de trabalho no workspace sejam excluídos. Depois de remover os fluxos de trabalho, clique em Desconectar nas configurações do workspace. O mesmo se aplicará a um locatário. Porém, primeiro você deverá verificar se todos os workspaces também foram desconectados da conta de armazenamento do locatário antes que seja possível desconectar no nível do locatário.

Desabilitar o Azure Data Lake Gen 2

No portal de Administração, em Fluxos de dados, você poderá desabilitar o acesso dos usuários para usar este recurso e não permitir que os administradores de workspaces tragam o próprio Armazenamento do Azure.

Reverter do Azure Data Lake Gen 2

Após configurar o armazenamento do fluxo de dados para usar o Azure Data Lake Gen 2, não será possível executar uma reversão de modo automático. O processo usado para retornar ao armazenamento gerenciado do Power BI é manual.

Será preciso excluir seus fluxos de dados e recriá-los no mesmo workspace para reverter a migração executada para o Gen 2. Como os dados não são excluídos do ADLS Gen 2, acesse o recurso e limpe os dados. Essa ação envolverá as etapas a seguir.

  1. Exporte uma cópia do fluxo de dados do Power BI. Como alternativa, copie o arquivo model.json. O arquivo model.json será armazenado no ADLS.

  2. Exclua os fluxos de dados.

  3. Desanexe o ADLS.

  4. Recrie os fluxos de dados usando a opção Importar. Os dados de atualização incremental (se aplicáveis) precisarão ser excluídos antes da importação. Essa ação pode ser executada com a exclusão de partições relevantes no arquivo model.json.

  5. Configure a opção atualizar/recriar políticas de atualização incremental.

Conectar-se aos dados usando o conector do ADLS Gen 2

O escopo deste documento descreverá conexões de fluxos de dados do ADLS Gen 2, não o conector do ADLS Gen 2 do Power BI. Trabalhar com o conector do ADLS Gen 2 é um cenário distinto, possivelmente aditivo. O conector do ADLS simplesmente usará o ADLS como uma fonte de dados. Sendo assim, não é necessário usar o Power Query Online no formato CDM para executar uma consulta nesses dados. Ele poderá ter o formato de dados que o cliente desejar. Para mais informações, confira Azure Data Lake Storage Gen2.

Os seguintes artigos fornecem mais informações sobre os fluxos de dados e o Power BI: