Linhagem de dados no cliente do Catálogo de Dados Azure PurviewData lineage in Azure Purview Data Catalog client

Este artigo fornece uma visão geral da linhagem de dados no Catálogo de Dados do Azure Purview.This article provides an overview of data lineage in Azure Purview Data Catalog. Também detalha como os sistemas de dados podem integrar-se com o catálogo para capturar a linhagem de dados.It also details how data systems can integrate with the catalog to capture lineage of data. A visão pode capturar a linhagem de dados em diferentes partes do espólio de dados da sua organização, e em diferentes níveis de preparação, incluindo:Purview can capture lineage for data in different parts of your organization's data estate, and at different levels of preparation including:

  • Dados completamente brutos encenados a partir de várias plataformasCompletely raw data staged from various platforms
  • Dados transformados e preparadosTransformed and prepared data
  • Dados utilizados pelas plataformas de visualização.Data used by visualization platforms.

Casos de UtilizaçãoUse Cases

A linhagem de dados é amplamente entendida como o ciclo de vida que abrange a origem dos dados, e onde se move ao longo do tempo através da propriedade de dados.Data lineage is broadly understood as the lifecycle that spans the data’s origin, and where it moves over time across the data estate. É usado para diferentes tipos de cenários de retrospetiva, tais como resolução de problemas, rastreio de raiz em gasodutos de dados e depuração.It is used for different kinds of backwards-looking scenarios such as troubleshooting, tracing root cause in data pipelines and debugging. A linhagem também é usada para análise de qualidade de dados, conformidade e cenários de "e se" muitas vezes referidos como análise de impacto.Lineage is also used for data quality analysis, compliance and “what if” scenarios often referred to as impact analysis. A linhagem é representada visualmente para mostrar dados que se deslocam de origem para destino, incluindo a forma como os dados foram transformados.Lineage is represented visually to show data moving from source to destination including how the data was transformed. Dada a complexidade da maioria dos ambientes de dados empresariais, estas opiniões podem ser difíceis de entender sem fazer alguma consolidação ou mascaramento de pontos de dados periféricos.Given the complexity of most enterprise data environments, these views can be hard to understand without doing some consolidation or masking of peripheral data points.

Experiência de linhagem no Catálogo de Dados Azure PurviewLineage experience in Azure Purview Data Catalog

O Purview Data Catalog irá ligar-se a outros sistemas de processamento, armazenamento e análise de dados para extrair informações de linhagem.Purview Data Catalog will connect with other data processing, storage, and analytics systems to extract lineage information. A informação é combinada para representar uma experiência genérica e específica de cenário no Catálogo.The information is combined to represent a generic, scenario-specific lineage experience in the Catalog.

linhagem end-end mostrando dados copiados da loja blob todo o caminho para power BI dashboard

A sua propriedade de dados pode incluir sistemas que estão a fazer a extração de dados, a transformação (sistemas ETL/ELT), sistemas de análise e visualização.Your data estate may include systems doing data extraction, transformation (ETL/ELT systems), analytics, and visualization systems. Cada um dos sistemas captura metadados estáticos e operacionais ricos que descrevem o estado e a qualidade dos dados dentro da fronteira dos sistemas.Each of the systems captures rich static and operational metadata that describes the state and quality of the data within the systems boundary. O objetivo da linhagem num catálogo de dados é extrair os metadados de movimento, transformação e operacional de cada sistema de dados no menor grão possível.The goal of lineage in a data catalog is to extract the movement, transformation, and operational metadata from each data system at the lowest grain possible.

O exemplo a seguir é um caso típico de utilização de dados que se movem em vários sistemas, onde o Catálogo de Dados se ligaria a cada um dos sistemas de linhagem.The following example is a typical use case of data moving across multiple systems, where the Data Catalog would connect to each of the systems for lineage.

  • A Data Factory copia dados da zona on-prem/raw para uma zona de aterragem na nuvem.Data Factory copies data from on-prem/raw zone to a landing zone in the cloud.
  • Sistemas de processamento de dados como o Synapse, Databricks processariam e transformariam dados da zona de aterragem para a zona curada usando cadernos.Data processing systems like Synapse, Databricks would process and transform data from landing zone to Curated zone using notebooks.
  • Processamento adicional de dados em modelos analíticos para um melhor desempenho e agregação de consultas.Further processing of data into analytical models for optimal query performance and aggregation.
  • Os sistemas de visualização de dados consumirão os conjuntos de dados e processarão através do seu modelo de meta para criar um bi dashboard, experiências ML e assim por diante.Data visualization systems will consume the datasets and process through their meta model to create a BI Dashboard, ML experiments and so on.

Granularidade da linhagemLineage granularity

Esta secção abrange os detalhes sobre a granularidade de que a informação da linhagem é recolhida por um catálogo de dados.This section covers the details about the granularity of which the lineage information is gathered by a data catalog. Esta granularidade pode variar em função dos sistemas de dados que estão sendo.This granularity can vary based on the data systems which are being.

Linhagem de nível de entidade: Origem(s) > Processo > Alvo(s)Entity level lineage: Source(s) > Process > Target(s)

  • A linhagem é representada como um gráfico, normalmente contém entidades de origem e alvo em sistemas de armazenamento de dados que estão ligadas por um processo invocado por um sistema de computação.Lineage is represented as a graph, typically it contains source and target entities in Data storage systems that are connected by a process invoked by a compute system.
  • Os sistemas de dados conectam-se ao catálogo de dados para gerar e reportar um objeto único que faz referência ao objeto físico do sistema de dados subjacente, por exemplo: SQL Procedimento armazenado, cadernos, e assim por diante.Data systems connect to the data catalog to generate and report a unique object referencing the physical object of the underlying data system for example: SQL Stored procedure, notebooks, and so on.
  • A linhagem de alta fidelidade com metadados adicionais como a propriedade é capturada para mostrar a linhagem num formato legível humano para entidades alvo & de origem.High fidelity lineage with additional metadata like ownership is captured to show the lineage in a human readable format for source & target entities. por exemplo: linhagem a um nível de mesa de colmeia em vez de divisórias ou nível de ficheiro.for example: lineage at a hive table level instead of partitions or file level.

Linhagem de nível de coluna ou atributoColumn or attribute level lineage

Identificar atributos de uma entidade-fonte que é utilizada para criar ou derivar atributos na entidade-alvo.Identify attribute(s) of a source entity that is used to create or derive attribute(s) in the target entity. O nome do atributo de origem pode ser retido ou renomeado num alvo.The name of the source attribute could be retained or renamed in a target. Sistemas como o ADF podem fazer uma cópia um-um do ambiente no local para a nuvem.Systems like ADF can do a one-one copy from on-premises environment to the cloud. Por exemplo: Table1/ColumnA -> Table2/ColumnA.For example: Table1/ColumnA -> Table2/ColumnA.

Estado da execução do processoProcess execution status

Para apoiar a análise de causas de raiz e cenários de qualidade de dados, capturamos o estado de execução dos postos de trabalho nos sistemas de processamento de dados.To support root cause analysis and data quality scenarios, we capture the execution status of the jobs in data processing systems. Este requisito nada tem a ver com a substituição das capacidades de monitorização de outros sistemas de processamento de dados, nem o objetivo é substituí-los.This requirement has nothing to do with replacing the monitoring capabilities of other data processing systems, neither the goal is to replace them.

ResumoSummary

A linhagem é uma característica crítica do Catálogo de Dados da Purview para suportar cenários de qualidade, confiança e auditoria.Lineage is a critical feature of the Purview Data Catalog to support quality, trust, and audit scenarios. O objetivo de um catálogo de dados é construir uma estrutura robusta onde todos os sistemas de dados dentro do seu ambiente possam naturalmente ligar e reportar a linhagem.The goal of a data catalog is to build a robust framework where all the data systems within your environment can naturally connect and report lineage. Uma vez disponibilizados os metadados, o catálogo de dados pode reunir os metadados fornecidos pelos sistemas de dados para potenciar casos de utilização da governação de dados.Once the metadata is available, the data catalog can bring together the metadata provided by data systems to power data governance use cases.

Passos seguintesNext steps