Linaje de datos en Microsoft Purview

En este artículo se proporciona información general sobre el linaje de datos en Catálogo de datos de Microsoft Purview. También se detalla cómo se pueden integrar los sistemas de datos con el catálogo para capturar el linaje de datos. Microsoft Purview puede capturar linaje de datos en diferentes partes del patrimonio de datos de su organización y en diferentes niveles de preparación, incluidos:

  • Datos sin procesar almacenados provisionalmente desde varias plataformas
  • Datos transformados y preparados
  • Datos utilizados por las plataformas de visualización

Casos de uso

El linaje de datos se entiende ampliamente como el ciclo de vida que abarca el origen de los datos y dónde se mueve a lo largo del tiempo a través del patrimonio de datos. Se usa para diferentes tipos de escenarios de aspecto hacia atrás, como la solución de problemas, el seguimiento de la causa raíz en las canalizaciones de datos y la depuración. El linaje también se usa para los escenarios de análisis de calidad de datos, cumplimiento y "what if" a los que a menudo se hace referencia como análisis de impacto. El linaje se representa visualmente para mostrar los datos que se mueven de origen a destino, incluido cómo se transformaron los datos. Dada la complejidad de la mayoría de los entornos de datos empresariales, estas vistas pueden ser difíciles de entender sin realizar alguna consolidación o enmascaramiento de puntos de datos periféricos.

Experiencia de linaje en Catálogo de datos de Microsoft Purview

Catálogo de datos de Microsoft Purview se conectará con otros sistemas de procesamiento, almacenamiento y análisis de datos para extraer información de linaje. La información se combina para representar una experiencia de linaje genérica específica del escenario en el catálogo.

linaje final que muestra los datos copiados del almacén de blobs hasta el panel de Power BI

El patrimonio de datos puede incluir sistemas que realizan extracción de datos, transformación (sistemas ETL/ELT), análisis y sistemas de visualización. Cada uno de los sistemas captura metadatos estáticos y operativos enriquecidos que describen el estado y la calidad de los datos dentro del límite de los sistemas. El objetivo del linaje en un catálogo de datos es extraer los metadatos operativos, de transformación y movimiento de cada sistema de datos en el nivel más bajo posible.

El ejemplo siguiente es un caso de uso típico de datos que se mueven entre varios sistemas, donde el Data Catalog se conectaría a cada uno de los sistemas para el linaje.

  • Data Factory copia los datos de la zona local o sin procesar en una zona de aterrizaje en la nube.
  • Los sistemas de procesamiento de datos como Synapse y Databricks procesarían y transformarían los datos de la zona de aterrizaje a la zona curada mediante cuadernos.
  • Procesamiento adicional de datos en modelos analíticos para un rendimiento y agregación óptimos de las consultas.
  • Los sistemas de visualización de datos consumirán los conjuntos de datos y procesarán a través de su metamodelo para crear un panel de BI, experimentos de APRENDIZAJE, etc.

Granularidad del linaje

En la sección siguiente se tratan los detalles sobre la granularidad de la información de linaje que recopila Microsoft Purview. Esta granularidad puede variar en función de los sistemas de datos admitidos en Microsoft Purview.

Linaje de nivel de entidad: destinos de proceso > de > origen

  • El linaje se representa como un gráfico, normalmente contiene entidades de origen y de destino en sistemas de almacenamiento de datos conectados por un proceso invocado por un sistema de proceso.
  • Los sistemas de datos se conectan al catálogo de datos para generar e informar de un objeto único que hace referencia al objeto físico del sistema de datos subyacente, por ejemplo: procedimiento almacenado de SQL, cuadernos, etc.
  • El linaje de alta fidelidad con otros metadatos, como la propiedad, se captura para mostrar el linaje en un formato legible para las entidades de destino de origen & . por ejemplo: linaje en un nivel de tabla de Hive en lugar de particiones o nivel de archivo.

Linaje de nivel de columna o atributo

Identifique los atributos de una entidad de origen que se usa para crear o derivar atributos en la entidad de destino. El nombre del atributo de origen se podría conservar o cambiar de nombre en un destino. Sistemas como ADF pueden realizar una copia única desde el entorno local a la nube. Por ejemplo: Table1/ColumnA -> Table2/ColumnA.

Estado de ejecución del proceso

Para admitir escenarios de análisis de causa principal y calidad de datos, capturamos el estado de ejecución de los trabajos en los sistemas de procesamiento de datos. Este requisito no tiene nada que ver con el reemplazo de las capacidades de supervisión de otros sistemas de procesamiento de datos, ni el objetivo es reemplazarlas.

Resumen

Linaje es una característica crítica de la Catálogo de datos de Microsoft Purview para admitir escenarios de calidad, confianza y auditoría. El objetivo de un catálogo de datos es crear un marco sólido en el que todos los sistemas de datos del entorno puedan conectarse de forma natural e informar del linaje. Una vez que los metadatos están disponibles, el catálogo de datos puede reunir los metadatos proporcionados por los sistemas de datos para potenciar los casos de uso de gobernanza de datos.

Siguientes pasos