Guía del usuario del linaje de Microsoft Purview Data Catalog
En este artículo se proporciona información general sobre las características del linaje de datos en Microsoft Purview Data Catalog.
Información previa
Una de las características de la plataforma de Microsoft Purview es la capacidad de mostrar el linaje entre conjuntos de datos que hayan creado procesos de datos. Sistemas como Data Factory, Data Share y Power BI capturan el linaje de los datos a medida que se transfieren. Los informes de linaje personalizados también se admiten a través de los enlaces de Atlas y la API de REST.
Colección de linajes
Los metadatos recopilados en Microsoft Purview desde sistemas de datos empresariales se unen para mostrar un linaje de datos de un extremo a otro. Los sistemas de datos que recopilan el linaje en Microsoft Purview se clasifican generalmente en los tres tipos siguientes:
- Sistemas de procesamiento de datos
- Sistemas de almacenamiento de datos
- Análisis de datos y sistemas de informes
Cada sistema admite un nivel diferente de ámbito de linaje. Consulte las secciones siguientes, o el artículo individual sobre linaje de su sistema, para confirmar el ámbito del linaje disponible actualmente.
Limitaciones conocidas
- Las vistas de base de datos usadas como origen de la actividad de proceso (Azure Data Factory, Synapse Pipelines, Azure SQL Database, Azure Data Share) se capturan actualmente como objetos Tabla de base de datos en Microsoft Purview. Si también se examina la base de datos, los recursos de vista se detectan por separado en Microsoft Purview. En este escenario, dos recursos con el mismo nombre capturados en Microsoft Purview, uno como una tabla con linaje de datos y otro como una vista.
Sistemas de procesamiento de datos
La integración de datos y las herramientas de ETL pueden enviar el linaje a Microsoft Purview en tiempo de ejecución. Herramientas como Data Factory, Data Share, Synapse o Azure Databricks entre otras, pertenecen a esta categoría de sistemas de procesamiento de datos. Los sistemas de procesamiento de datos hacen referencia a los conjuntos de datos que son el origen de diferentes bases de datos y soluciones de almacenamiento, para crear conjuntos de datos de destino. La lista de sistemas de procesamiento de datos que se integran actualmente con Microsoft Purview para obtener el linaje se enumeran en la tabla siguiente.
| Sistema de procesamiento de datos | Ámbito admitido |
|---|---|
| Azure Data Factory | Actividad de copia Actividad de los flujos de datos Ejecución de una actividad del paquete de SSIS |
| Azure Synapse Analytics | Actividad de copia Actividad de los flujos de datos |
| Azure SQL Database (versión preliminar) | Extracción de linaje |
| Azure Data Share | Compartir instantánea |
Sistemas de almacenamiento de datos
Las & soluciones de almacenamiento de bases de datos como Oracle, Teradata y SAP tienen motores de consulta para transformar datos mediante el lenguaje de scripting. El linaje de datos de vistas, procedimientos almacenados, etc., se recopila en Microsoft Purview y se une con el linaje de otros sistemas. El linaje es compatible con los siguientes orígenes de datos mediante el examen de datos de Microsoft Purview. Más información sobre los escenarios de linaje admitidos en el artículo correspondiente.
| Categoría | Origen de datos |
|---|---|
| Base de datos | Cassandra |
| Db2 | |
| Google BigQuery | |
| Base de datos de tienda de metadatos de Hive | |
| MySQL | |
| Oracle | |
| PostgreSQL | |
| Snowflake | |
| Teradata | |
| Servicios y aplicaciones | Erwin |
| Looker | |
| SAP ECC | |
| SAP S/4HANA |
Análisis de datos y sistemas de informes
Análisis de datos y sistemas de informes como Azure ML y notificación de linaje de Power BI en Microsoft Purview. Estos sistemas usarán los conjuntos de datos de los sistemas de almacenamiento y el proceso mediante su metamodelo para crear paneles de BI y experimentos de Machine Learning, entre otras cosas.
| Análisis de datos y sistema de informes | Ámbito admitido |
|---|---|
| Power BI | Conjuntos de datos, flujos de datos, informes y paneles |
Introducción al linaje
El linaje en Microsoft Purview incluye conjuntos de datos y procesos. Los conjuntos de datos se conocen como nodos, mientras que los procesos también se pueden llamar bordes:
Conjunto de datos (nodo) : un conjunto de datos (estructurado o no) se proporciona como entrada en un proceso. Por ejemplo, una tabla de SQL, un blob de Azure y archivos de tipo .csv y .xml, se consideran un conjuntos de datos. En la sección de linaje de Microsoft Purview, los conjuntos de datos se representan mediante cuadros rectangulares.
Proceso (borde) : una actividad o transformación realizada en un conjunto de datos se denomina proceso. Por ejemplo, una actividad de copia de ADF, una instantánea de Data Share, etc. En la sección de linaje de Microsoft Purview, los procesos se representan mediante cuadros con bordes redondeados.
Para obtener acceso a la información de linaje de un recurso en Microsoft Purview, siga estos pasos:
En Azure Portal, vaya a la página de las cuentas de Microsoft Purview.
Seleccione la cuenta de Microsoft Purview de la lista y, después, seleccione Abrir el portal de gobernanza de Microsoft Purview en la página de Información general.
En la página principal del portal de gobernanza de Microsoft Purview, busque un nombre de conjunto de datos o de proceso, como la actividad de copia de ADF o de Data Flow. A continuación, presione Entrar.
En los resultados de la búsqueda, seleccione el recurso y seleccione su pestaña de Linaje.
Linaje de nivel de recurso
Microsoft Purview admite el linaje de nivel de recurso de los conjuntos de datos y los procesos. Para ver el linaje de nivel de recurso, vaya a la pestaña Linaje del recurso actual en el catálogo. Seleccione el nodo de recursos del conjunto de datos actual. De forma predeterminada, la lista de columnas que pertenecen a los datos aparece en el panel izquierdo.
Linaje de columna de conjunto de datos
Para ver el linaje de nivel de columna de un conjunto de datos, vaya a la pestaña Linaje del recurso actual del catálogo y siga los pasos que se indican a continuación:
Una vez que esté en la pestaña del linaje, en el panel izquierdo, active la casilla situada junto a cada columna que quiera mostrar en el linaje de datos.
Mantenga el mouse sobre una columna seleccionada en el panel izquierdo o en el conjunto de datos del panel de lienzo del linaje para ver la asignación de columnas. Se resaltarán todas las instancias de columna.
Si el número de columnas es mayor que el que se puede mostrar en el panel izquierdo, use la opción de filtro para seleccionar una columna específica por nombre. Como alternativa, puede usar el mouse para desplazarse por la lista.
Si el panel de lienzo del linaje contiene más nodos y bordes, use el filtro para seleccionar los recursos de datos o procesar los nodos por nombre. Como alternativa, puede usar el mouse para desplazarse por la ventana del linaje.
Use el control de alternancia en el panel izquierdo para resaltar la lista de conjuntos de datos en el panel de lienzo del linaje. Si desactiva el control de alternancia, se muestra cualquier recurso que contenga al menos una de las columnas seleccionadas. Si, por el contrario, activa el control de alternancia, solo se mostrarán los conjuntos de datos que contengan todas las columnas.
Linaje de columna de proceso
El proceso de datos puede tomar uno o más conjuntos de datos de entrada para generar una o más salidas. En Microsoft Purview, el linaje de nivel de columna está disponible en nodos de proceso.
Cambie entre los conjuntos de datos de entrada y salida de un menú desplegable del panel de columnas.
Seleccione las columnas de una o más tablas para ver el linaje que fluye desde el conjunto de datos de entrada hasta el conjunto de datos de salida correspondiente.
Navegación por los recursos del linaje
Seleccione Switch to asset (Cambiar de recurso) en cualquier recurso, para ver sus metadatos en la vista de linaje. Si lo hace así, podrá examinar otro recurso del catálogo desde la vista de linaje.
El panel de lienzo del linaje podría ser complejo para conjuntos de datos populares. Para evitar confusiones, en la vista predeterminada solo se muestran los cinco niveles de linaje del recurso seleccionado. Para expandir el resto del linaje, seleccione las burbujas del panel de lienzo del linaje. Los consumidores de datos también pueden ocultar los recursos del panel de lienzo que no sean de su interés. Para reducir aún más la complejidad de los datos, desactive el control de alternancia More Lineage (Más linaje) en la parte superior del panel de lienzo del linaje. Esta acción ocultará todas las burbujas en el panel de lienzo del linaje.
Use los botones inteligentes del panel de lienzo del linaje para obtener una vista óptima del linaje. El diseño automático, el zoom para ajustar, las opciones para acercar o alejar, la pantalla completa y el mapa de navegación están disponibles para ofrecerle una experiencia de linaje envolvente en el catálogo.








