Cómo conectar Azure Data Factory y Azure Purview

En este documento se explican los pasos necesarios para conectar una cuenta de Azure Data Factory con una de Azure Purview para realizar un seguimiento del linaje de datos. El documento también profundiza en el ámbito de cobertura y los patrones de linaje admitidos.

Visualización de conexiones existentes de Data Factory

Es posible conectar varias instancias de Azure Data Factory a una sola de Azure Purview para enviar información de linaje. El límite actual permite conectar hasta 10 cuentas de Data Factory a la vez desde el centro de administración de Purview. Para mostrar la lista de cuentas de Data Factory conectadas a la de Purview, siga estos pasos:

  1. En el panel de navegación izquierdo, seleccione Administración.

  2. En Lineage connections (Conexiones de linaje), seleccione Data Factory.

  3. Aparece la lista de conexiones de Data Factory.

    Captura de pantalla que muestra una lista de conexiones de Data Factory.

  4. Observe los distintos valores de Estado de la conexión:

    • Conectado: la factoría de datos está conectada a la cuenta de Purview.
    • Desconectado: la factoría de datos tiene acceso al catálogo, pero está conectada a otro catálogo. Como resultado, el linaje de datos no se comunica al catálogo automáticamente.
    • CannotAccess: el usuario actual no tiene acceso a la factoría de datos, por lo que se desconoce el estado de la conexión.

Nota

Para ver las conexiones de Data Factory, debe tener asignado el rol siguiente. No se admite la herencia de roles del grupo de administración. Rol Administradores de colecciones en la colección raíz.

Creación de una nueva conexión de Data Factory

Nota

Para agregar o quitar las conexiones de Data Factory, debe tener asignado el rol siguiente. No se admite la herencia de roles del grupo de administración. Rol Administradores de colecciones en la colección raíz.

Además, es necesario que los usuarios tengan el rol "Propietario" o "Colaborador" de la factoría de datos.

Siga los pasos que se indican a continuación para conectar una factoría de datos existente a la cuenta de Purview. También puede conectar Data Factory a la cuenta de Purview desde ADF.

  1. En el panel de navegación izquierdo, seleccione Administración.

  2. En Lineage connections (Conexiones de linaje), seleccione Data Factory.

  3. En la página Data Factory connection (Conexión de Data Factory), seleccione Nueva.

  4. Seleccione la cuenta de Data Factory en la lista y luego Aceptar. También puede filtrar por nombre de suscripción para limitar la lista.

    Captura de pantalla que muestra cómo conectar Azure Data Factory.

    Es posible que algunas instancias de Data Factory estén deshabilitadas si la factoría de datos ya está conectada a la cuenta actual de Purview o si no tiene una identidad administrada.

    Si alguna de las factorías de datos seleccionadas ya está conectada a otra cuenta de Purview, aparece un mensaje de advertencia. Al seleccionar Aceptar, la conexión de Data Factory con la otra cuenta de Purview se interrumpe. No se requieren confirmaciones adicionales.

    Captura de pantalla que muestra la advertencia de desconexión de Azure Data Factory.

Nota

Ahora se admite la adición de un máximo de 10 factorías de datos a la vez. Si quiere agregar más de 10 factorías de datos a la vez, rellene una incidencia de soporte técnico.

Funcionamiento de la autenticación

La identidad administrada de la factoría de datos se usa para autenticar las operaciones de inserción de linaje desde la factoría de datos a Purview. Al conectar la factoría de datos a Purview en la interfaz de usuario, agrega automáticamente la asignación de roles.

Conceda el rol Conservador de datos de la identidad administrada de la factoría de datos en la colección raíz de Purview. Obtenga más información sobre el control de acceso en Azure Purview y Adición de roles y restricción del acceso mediante colecciones.

Eliminación de conexiones de Data Factory

Para quitar una conexión de Data Factory, haga lo siguiente:

  1. En la página Data Factory connection (Conexión de Data Factory), seleccione el botón Quitar situado junto a una o más conexiones de Data Factory.

  2. Seleccione Confirmar en el menú emergente para eliminar las conexiones de Data Factory seleccionadas.

    Captura de pantalla que muestra cómo seleccionar factorías de datos para quitar la conexión.

Actividades admitidas de Azure Data Factory

Azure Purview captura el linaje en tiempo de ejecución de las siguientes actividades de Azure Data Factory:

Importante

Azure Purview anula el linaje si el origen o el destino usan un sistema de almacenamiento de datos no admitido.

La integración entre Data Factory y Purview solo admite un subconjunto de los sistemas de datos que admite Data Factory, como se explica en las secciones siguientes.

Compatibilidad de actividad de copia

Almacén de datos Compatible
Azure Blob Storage
Azure Cognitive Search
Azure Cosmos DB (SQL API) *
API de Azure Cosmos DB para MongoDB *
Azure Data Explorer *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Database for Maria DB *
Azure Database for MySQL *
Azure Database for PostgreSQL *
Azure Files
Azure SQL Database *
Azure SQL Managed Instance *
Azure Synapse Analytics *
Grupo de SQL dedicado de Azure (antes denominado SQL DW) *
Azure Table Storage
Amazon S3
Hive *
Oracle *
Tabla de SAP (cuando se conecta con SAP ECC o SAP S/4HANA)
SQL Server *
Teradata *

* Actualmente, Azure Purview no admite la consulta ni el procedimiento almacenado para el linaje o el examen. El linaje se limita a los orígenes de tabla y vista.

Si usa el entorno de ejecución de integración autohospedado, tenga en cuenta la versión mínima con compatibilidad con linaje para:

  • Cualquier caso de uso: versión 5.9.7885.3 o posterior
  • Copiar datos desde Oracle: versión 5.10 o posterior
  • Copiar datos en Azure Synapse Analytics mediante el comando COPY o PolyBase: versión 5.10 o posterior

Limitaciones en el linaje de la actividad de copia

Actualmente, si usa las siguientes características de la actividad de copia, el linaje no se admite todavía:

  • Copia de datos en Azure Data Lake Storage Gen1 mediante el formato binario.
  • Configuración de compresión para archivos binarios, de texto delimitado, de Excel, JSON y XML.
  • Opciones de partición de origen para Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server y la tabla de SAP.
  • Copia de datos en un receptor basado en archivos con la configuración de número máximo de filas por archivo.

Además del linaje, se indica el esquema de recursos de datos (que se muestra en la pestaña Recurso -> Esquema) para los siguientes conectores:

  • Archivos CSV y Parquet en Azure Blob, Azure Files, ADLS Gen1, ADLS Gen2 y Amazon S3
  • Azure Data Explorer, Azure SQL Database, Azure SQL Managed Instance, Azure Synapse Analytics, SQL Server, Teradata

Compatibilidad de Data Flow

Almacén de datos Compatible
Azure Blob Storage
Azure Cosmos DB (SQL API) *
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen2
Azure Database for MySQL *
Azure Database for PostgreSQL *
Azure SQL Database *
Azure SQL Managed Instance *
Azure Synapse Analytics *
Grupo de SQL dedicado de Azure (antes denominado SQL DW) *

* Actualmente, Azure Purview no admite la consulta ni el procedimiento almacenado para el linaje o el examen. El linaje se limita a los orígenes de tabla y vista.

Limitaciones en el linaje del flujo de datos

Actualmente, el linaje del flujo de datos no se integra con el conjunto de recursos de Purview.

Compatibilidad de ejecución de paquetes SSIS

Consulte los almacenes de datos admitidos.

Acceso a cuenta de Azure Purview protegida

Si la cuenta de Purview está protegida por el firewall, aprenda a permitir que Data Factory acceda a una cuenta de Purview protegida mediante puntos de conexión privados de Purview.

Inserción del linaje de Data Factory en Purview

Para ver un tutorial completo, siga el Tutorial: Inserción de datos de linaje de Data Factory en Azure Purview.

Patrones de linaje admitidos

Hay varios patrones de linaje que Azure Purview admite. Los datos de linaje generados se basan en el tipo de origen y el receptor usados en las actividades de Data Factory. Aunque Data Factory admite más de 80 orígenes y receptores, Azure Purview solo admite un subconjunto, como se indica en Actividades admitidas de Azure Data Factory.

Para configurar Data Factory para enviar información de linaje, vea Introducción al linaje.

Entre otras maneras de buscar información en la vista de linaje se incluyen las siguientes:

  • En la pestaña Linaje, mantenga el mouse sobre las formas para obtener una vista previa de la información adicional sobre el recurso en la información sobre herramientas.
  • Seleccione el nodo o el borde para ver el tipo de recurso al que pertenece o para cambiar de recurso.
  • Las columnas de un conjunto de datos se muestran en el lado izquierdo de la pestaña Linaje. Para obtener más información sobre el linaje de nivel de columna, vea Linaje de nivel de columna.

Linaje de datos de operaciones 1:1

El patrón más común para capturar el linaje de datos es mover datos de un único conjunto de datos de entrada a un único conjunto de datos de salida, con un proceso intermedio.

Un ejemplo de este patrón sería el siguiente:

  • 1 origen por entrada: Customer (tabla SQL)
  • 1 receptor por salida: Customer1.csv (Azure Blob)
  • 1 proceso: CopyCustomerInfo1#Customer1.csv (actividad de copia de Data Factory)

Captura de pantalla que muestra el linaje de una operación de copia uno a uno de Data Factory.

Movimiento de datos con linaje 1:1 y compatibilidad con caracteres comodín

Otro escenario común para capturar el linaje es usar un carácter comodín para copiar archivos de un único conjunto de datos de entrada en un único conjunto de datos de salida. El carácter comodín permite que la actividad de copia coincida con varios archivos para copiarlos mediante una parte común del nombre de archivo. Azure Purview captura el linaje de nivel de archivo de cada archivo individual copiado por la actividad de copia correspondiente.

Un ejemplo de este patrón sería el siguiente:

  • Origen por entrada: CustomerCall*.csv (ruta ADLS Gen2)
  • Receptor por salida: CustomerCall*.csv (archivo de Azure Blob)
  • 1 proceso: CopyGen2ToBlob#CustomerCall.csv (actividad de copia de Data Factory)

Captura de pantalla que muestra el linaje de una operación de copia uno a uno con compatibilidad con caracteres comodín.

Movimiento de datos con linaje n:1

Puede usar las actividades de Data Flow para realizar operaciones de datos, como combinar, unir, etc. Se puede usar más de un conjunto de datos de origen para generar un conjunto de datos de destino. En este ejemplo, Azure Purview captura el linaje de nivel de archivo de archivos de entrada individuales en una tabla SQL que forma parte de una actividad de Data Flow.

Un ejemplo de este patrón sería el siguiente:

  • 2 orígenes por entradas: Customer.csv, Sales.parquet (ruta ADLS Gen2)
  • 1 receptor por salida: Company data (tabla de Azure SQL)
  • 1 proceso: DataFlowBlobsToSQL (actividad de Data Flow de Data Factory)

Captura de pantalla que muestra el linaje de una operación de Data Flow A D F n a 1.

Linaje de conjuntos de recursos

Un conjunto de recursos es un objeto lógico del catálogo que representa muchos archivos de partición en el almacenamiento subyacente. Para obtener más información, vea Descripción de los conjuntos de recursos. Cuando Azure Purview captura el linaje desde Azure Data Factory, aplica las reglas para normalizar los archivos de partición individuales y crear un único objeto lógico.

En el ejemplo siguiente se genera un conjunto de recursos de Azure Data Lake Gen2 a partir de Azure Blob:

  • 1 origen por entrada: Employee_management.csv (Azure Blob)
  • 1 receptor por salida: Employee_management.csv (Azure Data Lake Gen2)
  • 1 proceso: CopyBlobToAdlsGen2_RS (actividad de copia de Data Factory)

Captura de pantalla que muestra el linaje de un conjunto de recursos.

Pasos siguientes

Tutorial: Inserción de datos de linaje de Data Factory en Azure Purview

Guía de usuario del linaje de Data Catalog

Vínculo a Azure Data Share para linaje