Linhagem de dados no Microsoft Purview

Este artigo fornece uma visão geral da linhagem de dados no Catálogo de Dados do Microsoft Purview. Ele também detalha como os sistemas de dados podem se integrar ao catálogo para capturar a linhagem de dados. O Microsoft Purview pode capturar a linhagem de dados em diferentes partes do patrimônio de dados da sua organização e em diferentes níveis de preparação, incluindo:

  • Dados brutos encenados de várias plataformas
  • Dados transformados e preparados
  • Dados usados por plataformas de visualização

Casos de uso

A linhagem de dados é amplamente compreendida como o ciclo de vida que abrange a origem dos dados e para onde ele se move ao longo do tempo no conjunto de dados. Ele é usado para diferentes tipos de cenários de aparência retrógrada, como solução de problemas, rastreamento da causa raiz em pipelines de dados e depuração. A linhagem também é usada para análise de qualidade de dados, conformidade e cenários "e se" geralmente chamados de análise de impacto. A linhagem é representada visualmente para mostrar dados que se movem de origem para destino, incluindo como os dados foram transformados. Dada a complexidade da maioria dos ambientes de dados corporativos, essas exibições podem ser difíceis de entender sem fazer alguma consolidação ou mascaramento de pontos de dados periféricos.

Experiência de linhagem no Catálogo de Dados do Microsoft Purview

Catálogo de Dados do Microsoft Purview se conectará com outros sistemas de processamento, armazenamento e análise de dados para extrair informações de linhagem. As informações são combinadas para representar uma experiência de linhagem genérica e específica do cenário no catálogo.

linhagem end-end mostrando dados copiados do armazenamento de blobs até o Power BI dashboard

Seu patrimônio de dados pode incluir sistemas que fazem extração de dados, transformação (sistemas ETL/ELT), análise e sistemas de visualização. Cada um dos sistemas captura metadados estáticos e operacionais avançados que descrevem o estado e a qualidade dos dados dentro do limite de sistemas. O objetivo da linhagem em um catálogo de dados é extrair a movimentação, a transformação e os metadados operacionais de cada sistema de dados no menor grão possível.

O exemplo a seguir é um caso de uso típico de dados que se movem entre vários sistemas, em que o Catálogo de Dados se conectaria a cada um dos sistemas para linhagem.

  • O Data Factory copia dados da zona in-prem/raw para uma zona de destino na nuvem.
  • Sistemas de processamento de dados como o Synapse, o Databricks processaria e transformaria os dados da zona de destino para a zona curada usando notebooks.
  • Processamento adicional de dados em modelos analíticos para o desempenho e a agregação de consulta ideais.
  • Os sistemas de visualização de dados consumirão os conjuntos de dados e processarão por meio de seu modelo meta para criar um Painel de BI, experimentos de ML e assim por diante.

Granularidade de linhagem

A seção a seguir aborda os detalhes sobre a granularidade da qual as informações de linhagem são coletadas pelo Microsoft Purview. Essa granularidade pode variar com base nos sistemas de dados com suporte no Microsoft Purview.

Linhagem de nível de entidade: Destinos de processo > de origem(s>)

  • A linhagem é representada como um grafo, normalmente contém entidades de origem e de destino em sistemas de armazenamento de dados conectados por um processo invocado por um sistema de computação.
  • Os sistemas de dados se conectam ao catálogo de dados para gerar e relatar um objeto exclusivo que faz referência ao objeto físico do sistema de dados subjacente, por exemplo: procedimento armazenado sql, notebooks e assim por diante.
  • A linhagem de alta fidelidade com outros metadados como a propriedade é capturada para mostrar a linhagem em um formato legível humano para entidades de destino de origem & . por exemplo: linhagem em um nível de tabela hive em vez de partições ou nível de arquivo.

Linhagem de nível de coluna ou atributo

Identifique atributos de uma entidade de origem usada para criar ou derivar atributos na entidade de destino. O nome do atributo de origem pode ser retido ou renomeado em um destino. Sistemas como o ADF podem fazer uma cópia única do ambiente local para a nuvem. Por exemplo: Table1/ColumnA -> Table2/ColumnA.

Processar status de execução

Para dar suporte a cenários de análise de causa raiz e qualidade de dados, capturamos a status de execução dos trabalhos em sistemas de processamento de dados. Esse requisito não tem nada a ver com a substituição dos recursos de monitoramento de outros sistemas de processamento de dados, nem o objetivo é substituí-los.

Resumo

A linhagem é um recurso crítico do Catálogo de Dados do Microsoft Purview para dar suporte a cenários de qualidade, confiança e auditoria. O objetivo de um catálogo de dados é criar uma estrutura robusta em que todos os sistemas de dados em seu ambiente possam se conectar naturalmente e relatar linhagem. Depois que os metadados estiverem disponíveis, o catálogo de dados poderá reunir os metadados fornecidos pelos sistemas de dados para alimentar casos de uso de governança de dados.

Próximas etapas