Linaje de datos en el cliente de Microsoft Purview Data Catalog

En este artículo se proporciona información general sobre el linaje de datos en Microsoft Purview Data Catalog. También se detallan los sistemas de datos que se pueden integrar con el catálogo para capturar así el linaje de los datos. Microsoft Purview puede capturar el linaje de los datos en diferentes partes del patrimonio de datos de su organización y en diferentes niveles de preparación, que incluyen lo siguiente:

  • Datos completamente sin procesar de varias plataformas almacenados provisionalmente.
  • Datos transformados y preparados.
  • Datos que usan las plataformas de visualización.

Casos de uso

El linaje de datos es, en términos generales, el ciclo de vida que abarca el origen de los datos y que se mueve con el tiempo a través del patrimonio de datos. Se usa en diferentes tipos de escenarios de búsqueda retroactiva, como la solución de problemas, el seguimiento de la causa principal de las canalizaciones de datos y la depuración. El linaje también se usa en el análisis de calidad de los datos, el cumplimiento y los escenarios de tipo "what if", a los que a menudo se hace referencia como análisis de impacto. El linaje se representa visualmente para mostrar los datos que se transfieren del origen al destino; asimismo, también se incluye el modo en que se transforman los datos. Dada la complejidad de la mayoría de los entornos de datos empresariales, estas vistas pueden ser difíciles de entender si no se consolidan ni enmascaran los puntos de datos periféricos.

Experiencia del linaje de datos en Microsoft Purview Data Catalog

Microsoft Purview Data Catalog se conectará con otros sistemas de procesamiento, almacenamiento y análisis de datos para extraer información de linaje. La información se combina para representar una experiencia de linaje genérica y específica del escenario en el catálogo.

end-end lineage showing data copied from blob store all the way to Power BI dashboard

El patrimonio de datos puede incluir sistemas que se encargan de la extracción, transformación (sistemas ETL/ELT), análisis y visualización de datos. Cada uno de estos sistemas captura metadatos estáticos y operativos enriquecidos que describen el estado y la calidad de los datos del límite del sistema. El objetivo de linaje en un catálogo de datos es extraer los metadatos de transferencia, transformación y operaciones de cada sistema de datos con el menor detalle posible.

En el ejemplo siguiente se muestra un caso de uso típico de los datos que se transfieren a través de varios sistemas, donde Data Catalog se conecta a cada uno de los sistemas de linaje.

  • Data Factory copia los datos de la zona local o sin formato en una zona de aterrizaje en la nube.
  • En los sistemas de procesamiento de datos como Synapse, Databricks procesa y transforma los datos de la zona de aterrizaje a la zona mantenida mediante cuadernos.
  • Los procesamientos adicionales de datos en modelos analíticos le permiten obtener un rendimiento óptimo de las consultas y agregaciones.
  • Los sistemas de visualización de datos usarán los conjuntos de datos y el proceso a través de su metamodelo para crear un panel de BI, experimentos de Machine Learning, etc.

Granularidad del linaje

En la sección siguiente se detalla la granularidad con la que Microsoft Purview recopila la información de linaje. Esta granularidad puede variar en función de los sistemas de datos compatibles con Microsoft Purview.

Linaje de nivel de entidad: Orígenes > Proceso > Destinos

  • El linaje se representa como un gráfico que normalmente contiene entidades de origen y de destino en sistemas de almacenamiento de datos, que a su vez están conectados mediante un proceso que invoca un sistema de proceso.
  • Los sistemas de datos se conectan al catálogo de datos para generar y proporcionar un objeto único que hace referencia al objeto físico del sistema de datos subyacente; por ejemplo: procedimiento almacenado de SQL, cuadernos, etc.
  • El linaje de alta fidelidad con metadatos adicionales, como la propiedad, se captura para mostrar el linaje en un formato legible del origen y las entidades de destino. Por ejemplo: linaje en el nivel de tabla de subárbol, en lugar de particiones o el nivel de archivo.

Linaje de nivel de columna o atributo

Identifique los atributos de una entidad de origen que se usa para crear o derivar atributos en la entidad de destino. El nombre del atributo de origen se puede guardar o cambiar de nombre en el destino. Los sistemas como ADF pueden realizar una copia de tipo "uno a uno" desde el entorno local a la nube. Por ejemplo: Table1/ColumnA -> Table2/ColumnA.

Estado de la ejecución del proceso

Para admitir el análisis de la causa principal y los escenarios de calidad de los datos, es necesario capturar el estado de ejecución de los trabajos en los sistemas de procesamiento de datos. Tenga en cuenta que este requisito no tiene nada que ver con la sustitución de las capacidades de supervisión de otros sistemas de procesamiento de datos; asimismo, el objetivo no es reemplazarlos.

Resumen

El linaje es una característica fundamental de Microsoft Purview Data Catalog, ya que le permite admitir escenarios de calidad, confianza y auditoría. El objetivo de un catálogo de datos es crear un marco sólido en el que todos los sistemas de datos del entorno puedan conectarse de forma natural y generar informes de linaje. Una vez que los metadatos están disponibles, el catálogo de datos puede reunir los metadatos que hayan proporcionado los sistemas de datos para mejorar los casos de uso del gobierno de datos.

Pasos siguientes