Como configurar o armazenamento de fluxos de dados para usar o Azure Data Lake Gen 2

Por padrão, os dados usados no Power BI são armazenados em um armazenamento interno fornecido pelo Power BI. Com a integração de fluxos de dados ao ADLS Gen2 (Azure Data Lake Storage Gen 2), será possível armazenar fluxos de dados na conta do Azure Data Lake Storage Gen2 da sua organização. Isso basicamente permitirá "trazer seu armazenamento" para os fluxos de dados do Power BI e estabelecer uma conexão no nível do locatário ou workspace.

Motivos para usar o workspace do ADLS Gen 2 ou a conexão do locatário

Depois que você anexar o fluxo de dados, o Power BI vai configurar e salvar uma referência para que seja possível ler e gravar dados em seu ADLS Gen 2. O Power BI armazenará os dados no formato CDM, que captura metadados sobre seus dados, além dos dados reais gerados pelo fluxo de dados. Isso vai desbloquear várias funcionalidades avançadas e permitir que seus dados e os metadados associados no formato CDM forneçam cenários de extensibilidade, automação, monitoramento e backup. Ao tornar esses dados disponíveis e amplamente acessíveis em seu ambiente, o Power BI permitirá democratizar insights e dados criados na organização. Ele também vai desbloquear a capacidade de criar soluções adicionais com reconhecimento de CDM (como soluções e aplicativos personalizados no Power Platform, no Azure, bem como aqueles disponíveis por meio de ecossistemas de parceiros e ISV) ou que simplesmente tenham a capacidade de ler um CSV. Os engenheiros de dados, além dos cientistas e analistas de dados, agora podem usar e reutilizar um conjunto comum de dados coletados no ADLS Gen 2, bem como trabalhar com ele.

Há dois modos de configurar qual repositório do ADLS Gen 2 usar: é possível usar uma conta do ADLS Gen 2 atribuída a um locatário ou trazer seu repositório do ADLS Gen 2 a um nível do workspace.

Pré-requisitos

  • Para trazer sua conta do ADLS Gen 2, será necessário obter permissões de proprietário na camada da conta de armazenamento. As permissões que estiverem no nível do grupo de recursos ou da assinatura não funcionarão. Caso seja um administrador, você ainda deverá atribuir a si mesmo uma permissão de proprietário. Atualmente, não há suporte a Contas de Armazenamento do ADLS Gen2 por trás de um firewall.

  • A conta de armazenamento deverá ser criada com o HNS (Namespace Hierárquico) habilitado.

  • A conta de armazenamento deverá ser criada no mesmo locatário do Azure Active Directory do locatário do Power BI.

  • O protocolo TLS versão 1.2 (ou superior) é necessário para proteger seus pontos de extremidade. Os navegadores da Web e outros aplicativos cliente que usarem versões do TLS anteriores ao TLS 1.2 não poderão se conectar.

  • Não há suporte para a anexação de um fluxo de dados com o ADLS Gen 2 por trás da MFA (autenticação multifator).

  • Por fim, é possível se conectar ao ADLS Gen 2 no portal de administração. No entanto, caso se conecte diretamente a um workspace, primeiro será necessário verificar se não há fluxos de dados no workspace antes da conexão.

A seguinte tabela descreverá quais permissões para o ADLS e o Power BI são necessárias para o ADLS Gen 2 e o Power BI:

Ação Permissões do ADLS Permissões mínimas do Power BI
Conectar o ADLS Gen 2 ao locatário do Power BI Proprietário Administrador do Power BI
Conectar o ADLS Gen 2 ao workspace Proprietário Administrador de workspaces
Criar fluxos de dados do Power BI com write-back para uma conta do ADLS conectada Não aplicável Colaborador do workspace
Consumir fluxos de dados do Power BI Não aplicável Visualizador do workspace

Como se conectar ao Azure Data Lake Gen 2 no nível de um workspace

Navegue até um workspace que não tenha fluxos de dados. Selecione Configurações do workspace. Selecione a guia Conexões do Azure e clique na seção Armazenamento.

Conectar-se ao Azure

Caso o administrador já tenha configurado uma conta do ADLS Gen 2 atribuída a um locatário, a opção Usar uma conexão padrão do Azure estará visível. Você tem duas opções:

  • Use a conta do ADLS Gen 2 configurada pelo locatário selecionando uma caixa chamada Usar a conexão padrão do Azure ou
  • Selecione Conectar ao Azure para indicar uma nova conta de Armazenamento do Azure.

Quando você clicar na opção Conectar ao Azure, o Power BI vai recuperar uma lista de assinaturas do Azure às quais você tem acesso. Preencha os menus suspensos e selecione uma assinatura do Azure, um grupo de recursos e uma conta de armazenamento válidos que tenham a opção de namespace hierárquico habilitada, que será o sinalizador do ADLS Gen2.

detalhes da assinatura

Após selecionar uma assinatura, clique em Salvar. Agora você conectou o workspace à sua conta do ADLS Gen2 com êxito. O Power BI configurará a conta de armazenamento de maneira automática com as permissões necessárias e definirá o sistema de arquivos do Power BI no qual os dados serão gravados. Nesse momento, todos os dados do fluxo de dados dentro do workspace gravarão diretamente nesse sistema de arquivos, que poderá ser usado com outros serviços do Azure, criando uma única fonte para todos os dados de sua organização ou de seu departamento.

Compreendendo a configuração

A configuração de conexões do Azure é uma configuração opcional com propriedades adicionais que podem ser definidas opcionalmente:

  • Armazenamento no nível do locatário, que permite definir um padrão, e/ou
  • Armazenamento no nível do workspace, que permite especificar a conexão por workspace

Opcionalmente, você poderá configurar o armazenamento no nível dos locatários, se desejar usar apenas um data lake centralizado ou desejar que essa seja a opção padrão. Não começamos a usar o padrão automaticamente para permitir flexibilidade em sua configuração, então você tem a flexibilidade de configurar os workspaces que usam essa conexão do modo que achar melhor. Se você configurar uma conta do ADLS Gen 2 atribuída ao locatário, ainda precisará configurar cada workspace para usar essa opção padrão.

Você pode, opcional ou adicionalmente, configurar permissões de armazenamento no nível do workspace como uma opção separada, oferecendo flexibilidade completa para definir uma conta específica do ADLS Gen 2 em cada workspace.

Para resumir, se as permissões de armazenamento no nível dos locatários e de armazenamento no nível do workspace forem permitidas, os administradores do workspace poderão, opcionalmente, usar a conexão ADLS padrão ou optar por configurar outra conta de armazenamento separada do padrão. Se o armazenamento de locatário não estiver definido, os administradores do workspace poderão opcionalmente configurar contas ADLS em cada workspace. Por fim, se o armazenamento no nível dos locatários for selecionado e o armazenamento no nível do workspace não for permitido, os administradores do workspace poderão, opcionalmente, configurar seus fluxos de dados para usar essa conexão.

Como entender a estrutura e o formato de conexões do workspace do ADLS Gen 2

Na conta de armazenamento do ADLS Gen 2, todos os fluxos de dados são armazenados no contêiner do sistema de arquivos do powerbi.

A estrutura do contêiner do powerbi tem esta aparência: <workspace name>/<dataflow name>/model.json <workspace name>/<dataflow name>/model.json.snapshots/<all snapshots>

O local no qual os fluxos de dados armazenam dados na hierarquia de pastas para o ADLS Gen 2 é determinado pelo fato de o workspace estar localizado em capacidade compartilhada ou capacidade Premium. A estrutura do arquivo após a atualização para cada tipo de capacidade é mostrada na tabela a seguir.

Capacidade Premium Capacidade compartilhada
<workspace name>/<dataflow name>/<table name>/<tablesnapshots> <workspace name>/<dataflow name>/<table name>/<tablesnapshots>

Veja abaixo como usar a tabela de Pedidos do Northwind Odata de exemplo.

O Northwind de exemplo mostrando a tabela de Pedidos

Na imagem acima:

  • O arquivo model.json é a versão mais recente do fluxo de dados.
  • O arquivo model.json.snapshots representa todas as versões anteriores do fluxo de dados. Caso precise de uma versão anterior do mashup ou configurações incrementais, essa informação será útil.
  • O arquivo table.snapshots.csv representa dados obtidos de uma atualização. Essa informação será útil para executar atualizações incrementais, bem como atualizações compartilhadas em que o usuário descobre um problema de tempo limite de atualização devido ao tamanho dos dados. É possível examinar o instantâneo mais recente para conferir a quantidade de dados presentes no arquivo CSV.

Essa conta de armazenamento é usada somente para gravação e atualmente não é possível excluir dados nela. Isso significa que, mesmo após a desanexação, os dados não serão excluídos da conta do ADLS, de modo que todos os arquivos acima ainda serão armazenados.

Observação

Um arquivo model.json pode fazer referência a um arquivo semelhante que esteja em outro fluxo de dados no mesmo workspace ou fluxo de dados em outro workspace. A única situação em que um arquivo model.json poderá fazer referência a um arquivo table.snapshot.csv será para executar uma atualização incremental.

Usar a extensibilidade em conexões de um workspace do ADLS Gen 2

Caso esteja conectando o ADLS Gen 2 ao Power BI, será possível executar essa ação no nível do workspace ou locatário. Verifique se você tem o nível de acesso adequado. Saiba mais em Pré-requisitos.

A estrutura de armazenamento vai aderir ao formato do Common Data Model. Saiba mais sobre a estrutura de armazenamento e o CDM acessando os artigos Qual é a estrutura de armazenamento para os fluxos de dados analíticos? e O Common Data Model e o Azure Data Lake Storage Gen2.

Será possível controlar os dados e os metadados após configurá-los de modo adequado. Vários aplicativos reconhecem o formato CDM. Além disso, os dados podem ser estendidos usando o Azure, o PowerApps, o Power Automate e ecossistemas de terceiros em conformidade com o formato ou lendo os dados brutos.

Como desanexar o Azure Data Lake Gen 2 de um workspace ou locatário

Para remover uma conexão no nível do workspace, primeiro você deverá garantir que todos os fluxos de trabalho no workspace sejam excluídos. Depois de remover os fluxos de trabalho, clique em Desconectar nas configurações do workspace. O mesmo se aplicará a um locatário. Porém, primeiro você deverá verificar se todos os workspaces também foram desconectados da conta de armazenamento do locatário antes que seja possível desconectar no nível do locatário.

Como desabilitar o Azure Data Lake Gen 2

No portal de Administração, em Fluxos de dados, você poderá desabilitar o acesso dos usuários para usar este recurso e não permitir que os administradores de workspaces tragam o próprio Armazenamento do Azure.

Como executar uma reversão do Azure Data Lake Gen 2

Após configurar o armazenamento do fluxo de dados para usar o Azure Data Lake Gen 2, não será possível executar uma reversão de modo automático. O processo usado para retornar ao armazenamento gerenciado do Power BI é manual.

Será preciso excluir seus fluxos de dados e recriá-los no mesmo workspace para reverter a migração executada para o Gen 2. Como os dados não são excluídos do ADLS Gen 2, acesse o recurso e limpe os dados. Essa ação envolverá as etapas a seguir.

  1. Exporte uma cópia do fluxo de dados do Power BI. Como alternativa, copie o arquivo model.json. O arquivo model.json será armazenado no ADLS.

  2. Exclua os fluxos de dados.

  3. Desanexe o ADLS.

  4. Recrie os fluxos de dados usando a opção Importar. Observe que os dados de atualização incremental (se aplicáveis) precisarão ser excluídos antes da importação. Essa ação pode ser executada com a exclusão de partições relevantes no arquivo model.json.

  5. Configure a opção atualizar/recriar políticas de atualização incremental.

Como se conectar aos dados usando o conector do ADLS Gen 2

O escopo deste documento descreverá conexões de fluxos de dados do ADLS Gen 2, não o conector do ADLS Gen 2 do Power BI. Trabalhar com o conector do ADLS Gen 2 é um cenário distinto, possivelmente aditivo. O conector do ADLS simplesmente usará o ADLS como uma fonte de dados. Isso significa que não é necessário usar o PQO no formato CDM para executar uma consulta nesses dados. Ele poderá ter o formato de dados que o cliente desejar. Saiba mais sobre esse cenário acessando o artigo Analisar dados no Azure Data Lake Storage Gen2 usando o Power BI.

Próximas etapas

Os seguintes artigos fornecem mais informações sobre os fluxos de dados e o Power BI: