Linaje de datos en el cliente de Azure Purview Data CatalogData lineage in Azure Purview Data Catalog client

En este artículo se proporciona información general sobre el linaje de datos en Azure Purview Data Catalog.This article provides an overview of data lineage in Azure Purview Data Catalog. También se detallan los sistemas de datos que se pueden integrar con el catálogo para capturar así el linaje de los datos.It also details how data systems can integrate with the catalog to capture lineage of data. Purview puede capturar el linaje de los datos en diferentes partes del patrimonio de datos de su organización y en diferentes niveles de preparación, que incluyen lo siguiente:Purview can capture lineage for data in different parts of your organization's data estate, and at different levels of preparation including:

  • Datos completamente sin procesar de varias plataformas almacenados provisionalmente.Completely raw data staged from various platforms
  • Datos transformados y preparados.Transformed and prepared data
  • Datos que usan las plataformas de visualización.Data used by visualization platforms.

Casos de usoUse Cases

El linaje de datos es, en términos generales, el ciclo de vida que abarca el origen de los datos y que se mueve con el tiempo a través del patrimonio de datos.Data lineage is broadly understood as the lifecycle that spans the data’s origin, and where it moves over time across the data estate. Se usa en diferentes tipos de escenarios de búsqueda retroactiva, como la solución de problemas, el seguimiento de la causa principal de las canalizaciones de datos y la depuración.It is used for different kinds of backwards-looking scenarios such as troubleshooting, tracing root cause in data pipelines and debugging. El linaje también se usa en el análisis de calidad de los datos, el cumplimiento y los escenarios de tipo "what if", a los que a menudo se hace referencia como análisis de impacto.Lineage is also used for data quality analysis, compliance and “what if” scenarios often referred to as impact analysis. El linaje se representa visualmente para mostrar los datos que se transfieren del origen al destino; asimismo, también se incluye el modo en que se transforman los datos.Lineage is represented visually to show data moving from source to destination including how the data was transformed. Dada la complejidad de la mayoría de los entornos de datos empresariales, estas vistas pueden ser difíciles de entender si no se consolidan ni enmascaran los puntos de datos periféricos.Given the complexity of most enterprise data environments, these views can be hard to understand without doing some consolidation or masking of peripheral data points.

Experiencia del linaje de datos en Azure Purview Data CatalogLineage experience in Azure Purview Data Catalog

Purview Data Catalog se conectará con otros sistemas de procesamiento, almacenamiento y análisis de datos para extraer información de linaje.Purview Data Catalog will connect with other data processing, storage, and analytics systems to extract lineage information. La información se combina para representar una experiencia de linaje genérica y específica del escenario en el catálogo.The information is combined to represent a generic, scenario-specific lineage experience in the Catalog.

linaje final que muestra todos los pasos de los datos copiados desde almacén de blobs hasta el panel de Power BI

El patrimonio de datos puede incluir sistemas que se encargan de la extracción, transformación (sistemas ETL/ELT), análisis y visualización de datos.Your data estate may include systems doing data extraction, transformation (ETL/ELT systems), analytics, and visualization systems. Cada uno de estos sistemas captura metadatos estáticos y operativos enriquecidos que describen el estado y la calidad de los datos del límite del sistema.Each of the systems captures rich static and operational metadata that describes the state and quality of the data within the systems boundary. El objetivo de linaje en un catálogo de datos es extraer los metadatos de transferencia, transformación y operaciones de cada sistema de datos con el menor detalle posible.The goal of lineage in a data catalog is to extract the movement, transformation, and operational metadata from each data system at the lowest grain possible.

En el ejemplo siguiente se muestra un caso de uso típico de los datos que se transfieren a través de varios sistemas, donde Data Catalog se conecta a cada uno de los sistemas de linaje.The following example is a typical use case of data moving across multiple systems, where the Data Catalog would connect to each of the systems for lineage.

  • Data Factory copia los datos de la zona local o sin formato en una zona de aterrizaje en la nube.Data Factory copies data from on-prem/raw zone to a landing zone in the cloud.
  • En los sistemas de procesamiento de datos como Synapse, Databricks procesa y transforma los datos de la zona de aterrizaje a la zona mantenida mediante cuadernos.Data processing systems like Synapse, Databricks would process and transform data from landing zone to Curated zone using notebooks.
  • Los procesamientos adicionales de datos en modelos analíticos le permiten obtener un rendimiento óptimo de las consultas y agregaciones.Further processing of data into analytical models for optimal query performance and aggregation.
  • Los sistemas de visualización de datos usarán los conjuntos de datos y el proceso a través de su metamodelo para crear un panel de BI, experimentos de Machine Learning, etc.Data visualization systems will consume the datasets and process through their meta model to create a BI Dashboard, ML experiments and so on.

Granularidad del linajeLineage granularity

En esta sección se detalla la granularidad con la que se recopila la información de linaje de un catálogo de datos.This section covers the details about the granularity of which the lineage information is gathered by a data catalog. Esta granularidad puede variar en función de los sistemas de datos que se estén usando.This granularity can vary based on the data systems which are being.

Linaje de nivel de entidad: Orígenes > Proceso > DestinosEntity level lineage: Source(s) > Process > Target(s)

  • El linaje se representa como un gráfico que normalmente contiene entidades de origen y de destino en sistemas de almacenamiento de datos, que a su vez están conectados mediante un proceso que invoca un sistema de proceso.Lineage is represented as a graph, typically it contains source and target entities in Data storage systems that are connected by a process invoked by a compute system.
  • Los sistemas de datos se conectan al catálogo de datos para generar y proporcionar un objeto único que hace referencia al objeto físico del sistema de datos subyacente; por ejemplo: procedimiento almacenado de SQL, cuadernos, etc.Data systems connect to the data catalog to generate and report a unique object referencing the physical object of the underlying data system for example: SQL Stored procedure, notebooks, and so on.
  • El linaje de alta fidelidad con metadatos adicionales, como la propiedad, se captura para mostrar el linaje en un formato legible del origen y las entidades de destino.High fidelity lineage with additional metadata like ownership is captured to show the lineage in a human readable format for source & target entities. Por ejemplo: linaje en el nivel de tabla de subárbol, en lugar de particiones o el nivel de archivo.for example: lineage at a hive table level instead of partitions or file level.

Linaje de nivel de columna o atributoColumn or attribute level lineage

Identifique los atributos de una entidad de origen que se usa para crear o derivar atributos en la entidad de destino.Identify attribute(s) of a source entity that is used to create or derive attribute(s) in the target entity. El nombre del atributo de origen se puede guardar o cambiar de nombre en el destino.The name of the source attribute could be retained or renamed in a target. Los sistemas como ADF pueden realizar una copia de tipo "uno a uno" desde el entorno local a la nube.Systems like ADF can do a one-one copy from on-premises environment to the cloud. Por ejemplo: Table1/ColumnA -> Table2/ColumnA.For example: Table1/ColumnA -> Table2/ColumnA.

Estado de la ejecución del procesoProcess execution status

Para admitir el análisis de la causa principal y los escenarios de calidad de los datos, es necesario capturar el estado de ejecución de los trabajos en los sistemas de procesamiento de datos.To support root cause analysis and data quality scenarios, we capture the execution status of the jobs in data processing systems. Tenga en cuenta que este requisito no tiene nada que ver con la sustitución de las capacidades de supervisión de otros sistemas de procesamiento de datos; asimismo, el objetivo no es reemplazarlos.This requirement has nothing to do with replacing the monitoring capabilities of other data processing systems, neither the goal is to replace them.

ResumenSummary

El linaje es una característica fundamental de Purview Data Catalog, ya que le permite admitir escenarios de calidad, confianza y auditoría.Lineage is a critical feature of the Purview Data Catalog to support quality, trust, and audit scenarios. El objetivo de un catálogo de datos es crear un marco sólido en el que todos los sistemas de datos del entorno puedan conectarse de forma natural y generar informes de linaje.The goal of a data catalog is to build a robust framework where all the data systems within your environment can naturally connect and report lineage. Una vez que los metadatos están disponibles, el catálogo de datos puede reunir los metadatos que hayan proporcionado los sistemas de datos para mejorar los casos de uso del gobierno de datos.Once the metadata is available, the data catalog can bring together the metadata provided by data systems to power data governance use cases.

Pasos siguientesNext steps