Conexión de Azure Data Factory y Microsoft Purview

En este documento se explican los pasos necesarios para conectar una cuenta de Azure Data Factory con una cuenta de Microsoft Purview para realizar un seguimiento del linaje de datos e ingerir orígenes de datos. El documento también se incluye en los detalles del ámbito de cobertura de actividad y los patrones de linaje admitidos.

Al conectar un Azure Data Factory a Microsoft Purview, siempre que se ejecute una actividad de Azure Data Factory compatible, los metadatos sobre los datos de origen de la actividad, los datos de salida y la actividad se ingieren automáticamente en el Mapa de datos de Microsoft Purview.

Si un origen de datos ya se ha examinado y existe en el mapa de datos, el proceso de ingesta agregará la información de linaje de Azure Data Factory a ese origen existente. Si el origen o la salida no existen en el mapa de datos y es compatible con Azure Data Factory linaje Microsoft Purview agregará automáticamente sus metadatos de Azure Data Factory al mapa de datos de la colección raíz.

Esta puede ser una excelente manera de supervisar el patrimonio de datos a medida que los usuarios mueven y transforman información mediante Azure Data Factory.

Visualización de las conexiones existentes de Data Factory

Varias factorías de datos de Azure pueden conectarse a una única instancia de Microsoft Purview para insertar información de linaje. El límite actual permite conectar hasta 10 cuentas de Data Factory a la vez desde el Centro de administración de Microsoft Purview. Para mostrar la lista de cuentas de Data Factory conectadas a su cuenta de Microsoft Purview, haga lo siguiente:

  1. Seleccione Administración en el panel de navegación izquierdo.

  2. En Conexiones de linaje, seleccione Data Factory.

  3. Aparece la lista de conexiones de Data Factory.

    Captura de pantalla que muestra una lista de conexiones de data factory.

  4. Observe los distintos valores de Estado de conexión:

    • Conectado: la factoría de datos está conectada a la cuenta de Microsoft Purview.
    • Desconectado: la factoría de datos tiene acceso al catálogo, pero está conectada a otro catálogo. Como resultado, el linaje de datos no se notificará automáticamente al catálogo.
    • CannotAccess: el usuario actual no tiene acceso a la factoría de datos, por lo que el estado de la conexión es desconocido.

Nota:

Para ver las conexiones de Data Factory, debe tener asignado el siguiente rol. No se admite la herencia de roles del grupo de administración. Rol de administradores de recopilación en la colección raíz.

Creación de una nueva conexión de Data Factory

Nota:

Para agregar o quitar las conexiones de Data Factory, debe tener asignado el siguiente rol. No se admite la herencia de roles del grupo de administración. Rol de administradores de recopilación en la colección raíz.

Además, requiere que los usuarios sean "Propietario" o "Colaborador" de la factoría de datos.

La factoría de datos debe tener habilitada la identidad administrada asignada por el sistema.

Siga los pasos siguientes para conectar una factoría de datos existente a su cuenta de Microsoft Purview. También puede conectar Data Factory a la cuenta de Microsoft Purview desde ADF.

  1. Seleccione Administración en el panel de navegación izquierdo.

  2. En Conexiones de linaje, seleccione Data Factory.

  3. En la página Conexión de Data Factory , seleccione Nuevo.

  4. Seleccione la cuenta de Data Factory en la lista y seleccione Aceptar. También puede filtrar por nombre de suscripción para limitar la lista.

    Es posible que algunas instancias de Data Factory se deshabiliten si la factoría de datos ya está conectada a la cuenta actual de Microsoft Purview o si la factoría de datos no tiene una identidad administrada.

    Se mostrará un mensaje de advertencia si alguna de las factorías de datos seleccionadas ya está conectada a otra cuenta de Microsoft Purview. Al seleccionar Aceptar, se desconectará la conexión de Data Factory con la otra cuenta de Microsoft Purview. No se requiere ninguna otra confirmación.

    Captura de pantalla que muestra la advertencia para desconectar Azure Data Factory.

Nota:

Se admite la adición de hasta 10 cuentas Azure Data Factory a la vez. Si desea agregar más de 10 cuentas de factoría de datos, hágalo en varios lotes.

Funcionamiento de la autenticación

La identidad administrada de Data Factory se usa para autenticar las operaciones de inserción de linaje desde data factory a Microsoft Purview. Al conectar la factoría de datos a Microsoft Purview en la interfaz de usuario, se agrega la asignación de roles automáticamente.

Conceda al rol de conservador de datos de identidad administrada de la factoría de datos en la colección raíz de Microsoft Purview. Obtenga más información sobre el control de acceso en Microsoft Purview y Agregar roles y restrinja el acceso a través de colecciones.

Eliminación de conexiones de Data Factory

Para quitar una conexión de factoría de datos, haga lo siguiente:

  1. En la página Conexión de Data Factory , seleccione el botón Quitar situado junto a una o varias conexiones de data factory.

  2. Seleccione Confirmar en el elemento emergente para eliminar las conexiones de factoría de datos seleccionadas.

    Captura de pantalla que muestra cómo seleccionar factorías de datos para quitar la conexión.

En el portal de gobernanza de Microsoft Purview, puede supervisar los vínculos de Data Factory.

Actividades de Azure Data Factory admitidas

Microsoft Purview captura el linaje en tiempo de ejecución de las siguientes actividades de Azure Data Factory:

Importante

Microsoft Purview quita el linaje si el origen o el destino usan un sistema de almacenamiento de datos no compatible.

La integración entre Data Factory y Microsoft Purview solo admite un subconjunto de los sistemas de datos compatibles con Data Factory, como se describe en las secciones siguientes.

compatibilidad con actividad de copia

Almacén de datos Compatible
Azure Blob Storage
Azure Cognitive Search
Azure Cosmos DB para NoSQL *
Azure Cosmos DB para MongoDB *
Azure Data Explorer *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Database for MariaDB *
Azure Database for MySQL *
Azure Database for PostgreSQL *
Azure Files
Azure SQL base de datos *
Azure SQL Managed Instance *
análisis de Azure Synapse *
Grupo de SQL dedicado de Azure (anteriormente SQL DW) *
Azure Table Storage
Amazon S3
Colmena*
Oracle*
Tabla de SAP (al conectarse a SAP ECC o SAP S/4HANA)
SQL Server *
Teradata*

* Microsoft Purview no admite actualmente consultas ni procedimientos almacenados para el linaje o el examen. El linaje solo se limita a los orígenes de tabla y vista.

Si usa Integration Runtime autohospedado, tenga en cuenta la versión mínima con compatibilidad con linaje para:

  • Cualquier caso de uso: versión 5.9.7885.3 o posterior
  • Copia de datos de Oracle: versión 5.10 o posterior
  • Copia de datos en Azure Synapse Analytics mediante el comando COPY o PolyBase: versión 5.10 o posterior

Limitaciones en el linaje de la actividad de copia

Actualmente, si usa las siguientes características de actividad de copia, aún no se admite el linaje:

  • Copie los datos en Azure Data Lake Storage Gen1 con formato binario.
  • Configuración de compresión para archivos Binario, texto delimitado, Excel, JSON y XML.
  • Opciones de partición de origen para Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server y SAP Table.
  • Copie los datos en el receptor basado en archivos con el valor de número máximo de filas por archivo.
  • Actualmente, la actividad de copia no admite el linaje de nivel de columna cuando el origen o el receptor están establecidos en los recursos.

Además del linaje, el esquema del recurso de datos (que se muestra en la pestaña Activo -> Esquema) se notifica para los conectores siguientes:

  • Archivos CSV y Parquet en Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 y Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

compatibilidad con Data Flow

Almacén de datos Compatible
Azure Blob Storage
Azure Cosmos DB para NoSQL *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Database for MySQL *
Azure Database for PostgreSQL *
Azure SQL base de datos *
Azure SQL Managed Instance *
análisis de Azure Synapse *
Grupo de SQL dedicado de Azure (anteriormente SQL DW) *

* Microsoft Purview no admite actualmente consultas ni procedimientos almacenados para el linaje o el examen. El linaje solo se limita a los orígenes de tabla y vista.

Limitaciones en el linaje del flujo de datos

  • El linaje de flujo de datos puede generar un conjunto de recursos de nivel de carpeta sin visibilidad sobre los archivos implicados.
  • El linaje de nivel de columna no se admite actualmente cuando el origen o el receptor están establecidos en recursos.
  • Para el linaje de la actividad de flujo de datos, Microsoft Purview solo admite mostrar el origen y el receptor implicados. Aún no se admite el linaje detallado para la transformación del flujo de datos.

Ejecución de la compatibilidad con paquetes SSIS

Consulte almacenes de datos admitidos.

Acceso a una cuenta de Microsoft Purview protegida

Si la cuenta de Microsoft Purview está protegida por el firewall, obtenga información sobre cómo permitir que Data Factory acceda a una cuenta de Microsoft Purview protegida a través de puntos de conexión privados de Microsoft Purview.

Incorporación del linaje de Data Factory a Microsoft Purview

Para ver un tutorial de un extremo a otro, siga el Tutorial: Inserción de datos de linaje de Data Factory en Microsoft Purview.

Patrones de linaje admitidos

Microsoft Purview admite varios patrones de linaje. Los datos de linaje generados se basan en el tipo de origen y receptor utilizado en las actividades de Data Factory. Aunque Data Factory admite más de 80 orígenes y receptores, Microsoft Purview solo admite un subconjunto, como se muestra en Las actividades de Azure Data Factory admitidas.

Para configurar Data Factory para enviar información de linaje, consulte Introducción al linaje.

Entre otras formas de encontrar información en la vista de linaje, se incluyen las siguientes:

  • En la pestaña Linaje , mantenga el puntero sobre las formas para obtener una vista previa de información adicional sobre el recurso en la información sobre herramientas.
  • Seleccione el nodo o el borde para ver el tipo de recurso al que pertenece o para cambiar los recursos.
  • Las columnas de un conjunto de datos se muestran en el lado izquierdo de la pestaña Linaje . Para obtener más información sobre el linaje de nivel de columna, consulte Linaje de columnas del conjunto de datos.

Linaje de datos para operaciones 1:1

El patrón más común para capturar el linaje de datos es mover datos de un único conjunto de datos de entrada a un único conjunto de datos de salida, con un proceso entre ambos.

Un ejemplo de este patrón sería el siguiente:

  • 1 origen/entrada: cliente (tabla SQL)
  • 1 receptor/salida: Customer1.csv (Blob de Azure)
  • 1 proceso: CopyCustomerInfo1#Customer1.csv (Data Factory actividad de copia)

Captura de pantalla que muestra el linaje de una operación de copia de una a una de Data Factory.

Movimiento de datos con linaje 1:1 y compatibilidad con caracteres comodín

Otro escenario común para capturar linaje es usar un carácter comodín para copiar archivos de un único conjunto de datos de entrada en un único conjunto de datos de salida. El carácter comodín permite que la actividad de copia coincida con varios archivos para copiar mediante una parte común del nombre de archivo. Microsoft Purview captura el linaje de nivel de archivo para cada archivo individual copiado por la actividad de copia correspondiente.

Un ejemplo de este patrón sería el siguiente:

  • Origen/entrada: CustomerCall*.csv (ruta de acceso de ADLS Gen2)
  • Receptor/salida: CustomerCall*.csv (archivo de blob de Azure)
  • 1 proceso: CopyGen2ToBlob#CustomerCall.csv (Data Factory actividad de copia)

Captura de pantalla que muestra el linaje de una operación de copia de uno a uno con compatibilidad con caracteres comodín.

Movimiento de datos con linaje n:1

Puede usar Data Flow actividades para realizar operaciones de datos como combinar, combinar, etc. Se puede usar más de un conjunto de datos de origen para generar un conjunto de datos de destino. En este ejemplo, Microsoft Purview captura el linaje de nivel de archivo de los archivos de entrada individuales en una tabla SQL que forma parte de una actividad de Data Flow.

Un ejemplo de este patrón sería el siguiente:

  • 2 orígenes/entradas: Customer.csv, Sales.parquet (ruta de acceso de ADLS Gen2)
  • 1 receptor/salida: datos de la empresa (tabla Azure SQL)
  • 1 proceso: DataFlowBlobsToSQL (actividad de Data Flow de Data Factory)

Captura de pantalla en la que se muestra el linaje de una operación de Data Flow de n a una A D F.

Linaje para conjuntos de recursos

Un conjunto de recursos es un objeto lógico del catálogo que representa muchos archivos de partición en el almacenamiento subyacente. Para obtener más información, consulte Descripción de los conjuntos de recursos. Cuando Microsoft Purview captura el linaje del Azure Data Factory, aplica las reglas para normalizar los archivos de partición individuales y crear un único objeto lógico.

En el ejemplo siguiente, se genera un conjunto de recursos de Azure Data Lake Gen2 a partir de un blob de Azure:

  • 1 origen/entrada: Employee_management.csv (Blob de Azure)
  • 1 receptor/salida: Employee_management.csv (Azure Data Lake Gen 2)
  • 1 proceso: CopyBlobToAdlsGen2_RS (actividad de copia de Data Factory)

Captura de pantalla que muestra el linaje de un conjunto de recursos.

Siguientes pasos

Tutorial: Inserción de datos de linaje de Data Factory en Microsoft Purview

Guía del usuario del linaje del catálogo

Vínculo a Azure Data Share para linaje