Exámenes e ingesta en Microsoft Purview

En este artículo se proporciona información general sobre las características de examen e ingesta en Microsoft Purview. Estas características conectan la cuenta de Microsoft Purview a los orígenes para rellenar el mapa de datos y el catálogo de datos, de modo que pueda empezar a explorar y administrar los datos a través de Microsoft Purview.

  • El examen captura metadatos de orígenes de datos y los lleva a Microsoft Purview.
  • La ingesta procesa metadatos y los almacena en el catálogo de datos de ambos:
    • Exámenes del origen de datos: los metadatos examinados se agregan al Mapa de datos de Microsoft Purview.
    • Conexiones de linaje: los recursos de transformación agregan metadatos sobre sus orígenes, salidas y actividades al Mapa de datos de Microsoft Purview.

Análisis

Después de registrar los orígenes de datos en la cuenta de Microsoft Purview, el siguiente paso es examinar los orígenes de datos. El proceso de examen establece una conexión con el origen de datos y captura metadatos técnicos, como nombres, tamaño de archivo, columnas, etc. También extrae el esquema para orígenes de datos estructurados, aplica clasificaciones en esquemas y aplica etiquetas de confidencialidad si el Mapa de datos de Microsoft Purview está conectado a un portal de cumplimiento Microsoft Purview. El proceso de examen se puede desencadenar para ejecutarse inmediatamente o puede programarse para ejecutarse periódicamente para mantener actualizada la cuenta de Microsoft Purview.

Para cada examen, hay personalizaciones que puede aplicar para que solo esté escaneando la información que necesita, en lugar de todo el origen.

Elección de un método de autenticación para los exámenes

Microsoft Purview es seguro de forma predeterminada. No hay contraseñas ni secretos almacenados directamente en Microsoft Purview, por lo que deberá elegir un método de autenticación para los orígenes. Hay varias maneras posibles de autenticar la cuenta de Microsoft Purview, pero no todos los métodos son compatibles con cada origen de datos.

  • Identidad administrada
  • Entidad de servicio
  • Autenticación de SQL
  • Autenticación de Windows
  • ARN de rol
  • Autenticación delegada
  • Clave de consumidor
  • Clave de cuenta o autenticación básica

Siempre que sea posible, una identidad administrada es el método de autenticación preferido porque elimina la necesidad de almacenar y administrar credenciales para orígenes de datos individuales. Esto puede reducir considerablemente el tiempo que usted y su equipo dedican a configurar y solucionar problemas de autenticación para exámenes. Al habilitar una identidad administrada para la cuenta de Microsoft Purview, se crea una identidad en Azure Active Directory y está asociada al ciclo de vida de la cuenta.

Ámbito del examen

Al examinar un origen, tiene la opción de examinar todo el origen de datos o elegir solo entidades específicas (carpetas o tablas) para examinar. Las opciones disponibles dependen del origen que está escaneando y se pueden definir para exámenes programados y de una sola vez.

Por ejemplo, al crear y ejecutar un examen para una base de datos de Azure SQL, puede elegir qué tablas examinar o seleccionar toda la base de datos.

Para cada entidad (carpeta o tabla), habrá tres estados de selección: totalmente seleccionados, parcialmente seleccionados y no seleccionados. En el ejemplo siguiente, si selecciona "Departamento 1" en la jerarquía de carpetas, "Departamento 1" se considera totalmente seleccionado. Las entidades primarias para "Department 1", como "Company" y "example", se consideran parcialmente seleccionadas, ya que hay otras entidades en el mismo elemento primario que no se han seleccionado, por ejemplo, "Department 2". Se usarán diferentes iconos en la interfaz de usuario para las entidades con distintos estados de selección.

Captura de pantalla que muestra el ámbito de la página de examen.

Después de ejecutar el examen, es probable que haya nuevos recursos agregados en el sistema de origen. De forma predeterminada, los activos futuros de un elemento primario determinado se seleccionarán automáticamente si el elemento primario está seleccionado total o parcialmente al volver a ejecutar el examen. En el ejemplo anterior, después de seleccionar "Departamento 1" y ejecutar el examen, se incluirán los nuevos recursos en la carpeta "Departamento 1" o en "Empresa" y "ejemplo" cuando vuelva a ejecutar el examen.

Se introduce un botón de alternancia para que los usuarios controlen la inclusión automática de nuevos recursos en el elemento primario parcialmente seleccionado. De forma predeterminada, se desactivará la alternancia y se deshabilitará el comportamiento de inclusión automática para el elemento primario parcialmente seleccionado. En el mismo ejemplo con el botón de alternancia desactivado, los nuevos recursos de elementos primarios parcialmente seleccionados como "Empresa" y "ejemplo" no se incluirán cuando vuelva a ejecutar el examen, solo se incluirán nuevos recursos en "Departamento 1" en el examen futuro.

Captura de pantalla que muestra el ámbito de la página de examen con el botón de alternancia desactivado.

Si el botón de alternancia está activado, los nuevos recursos de un elemento primario determinado se seleccionarán automáticamente si el elemento primario está seleccionado total o parcialmente al volver a ejecutar el examen. El comportamiento de inclusión será el mismo que antes de que se introduzca el botón de alternancia.

Captura de pantalla que muestra el ámbito de la página de examen con el botón de alternancia activado.

Nota:

  • La disponibilidad del botón de alternancia dependerá del tipo de origen de datos. Actualmente está disponible en versión preliminar pública para orígenes como Azure Blob Storage, Azure Data Lake Storage Gen 1, Azure Data Lake Storage Gen 2, Azure Files y el grupo de SQL dedicado de Azure (anteriormente SQL DW).
  • Para los exámenes creados o programados antes de que se introduzca el botón de alternancia, el estado de alternancia se establece como activado y no se puede cambiar. Para los exámenes creados o programados después de introducir el botón de alternancia, el estado de alternancia no se puede cambiar después de guardar el examen. Debe crear un nuevo examen para cambiar el estado de alternancia.
  • Cuando se desactiva el botón de alternancia, para orígenes de tipo de almacenamiento como Azure Data Lake Storage Gen 2, la experiencia de examinar por tipo de origen puede tardar hasta 4 horas en estar totalmente disponible una vez completado el trabajo de examen.

Limitaciones conocidas

Cuando el botón de alternancia está desactivado:

  • Las entidades de archivo en un elemento primario parcialmente seleccionado no se examinarán.
  • Si se seleccionan explícitamente todas las entidades existentes en un elemento primario, el elemento primario se considerará totalmente seleccionado y se incluirán los nuevos recursos del elemento primario cuando vuelva a ejecutar el examen.

Conjunto de reglas de examen

Un conjunto de reglas de examen determina los tipos de información que un examen buscará cuando se ejecute en uno de los orígenes. Las reglas disponibles dependen del tipo de origen que se va a examinar, pero incluyen elementos como los tipos de archivo que debe examinar y los tipos de clasificaciones que necesita.

Ya hay conjuntos de reglas de examen del sistema disponibles para muchos tipos de orígenes de datos, pero también puede crear sus propios conjuntos de reglas de examen para adaptar los exámenes a su organización.

Programar el examen

Microsoft Purview le ofrece la opción de escanear semanalmente o mensualmente en un momento específico que elija. Los exámenes semanales pueden ser adecuados para orígenes de datos con estructuras que están activamente en desarrollo o que cambian con frecuencia. El examen mensual es más adecuado para los orígenes de datos que cambian con poca frecuencia. El procedimiento recomendado consiste en trabajar con el administrador del origen que desea examinar para identificar un momento en el que las demandas de proceso en el origen son bajas.

Cómo los exámenes detectan los recursos eliminados

Un catálogo de Microsoft Purview solo conoce el estado de un almacén de datos cuando ejecuta un examen. Para que el catálogo sepa si se eliminó un archivo, una tabla o un contenedor, compara la última salida de examen con la salida de examen actual. Por ejemplo, suponga que la última vez que examinó una cuenta de Azure Data Lake Storage Gen2, incluyó una carpeta denominada folder1. Cuando se vuelve a examinar la misma cuenta, falta folder1 . Por lo tanto, el catálogo supone que la carpeta se ha eliminado.

Detección de archivos eliminados

La lógica para detectar archivos que faltan funciona para varios exámenes por el mismo usuario y por distintos usuarios. Por ejemplo, supongamos que un usuario ejecuta un examen único en un almacén de datos Data Lake Storage Gen2 en las carpetas A, B y C. Más adelante, un usuario diferente de la misma cuenta ejecuta un examen único diferente en las carpetas C, D y E del mismo almacén de datos. Dado que la carpeta C se ha examinado dos veces, el catálogo comprueba si hay posibles eliminaciones. Las carpetas A, B, D y E, sin embargo, solo se examinaron una vez y el catálogo no comprobará si hay recursos eliminados.

Para mantener los archivos eliminados fuera del catálogo, es importante ejecutar exámenes normales. El intervalo de examen es importante, ya que el catálogo no puede detectar los recursos eliminados hasta que se ejecuta otro examen. Por lo tanto, si ejecuta exámenes una vez al mes en un almacén determinado, el catálogo no podrá detectar ningún recurso de datos eliminados en ese almacén hasta que ejecute el siguiente examen un mes más tarde.

Al enumerar almacenes de datos grandes como Data Lake Storage Gen2, hay varias maneras (incluidos errores de enumeración y eventos eliminados) de perder información. Es posible que un examen determinado pierda que se creó o eliminó un archivo. Por lo tanto, a menos que el catálogo esté seguro de que se eliminó un archivo, no lo eliminará del catálogo. Esta estrategia significa que puede haber errores cuando todavía existe un archivo que no existe en el almacén de datos examinado en el catálogo. En algunos casos, es posible que sea necesario examinar un almacén de datos dos o tres veces antes de detectar determinados recursos eliminados.

Nota:

  • Los recursos marcados para su eliminación se eliminan después de un examen correcto. Es posible que los recursos eliminados sigan siendo visibles en el catálogo durante algún tiempo antes de que se procesen y quiten.
  • Actualmente, la detección de eliminación de origen no es compatible con los siguientes orígenes: Azure Databricks, Amazon Redshift, Cassandra, DB2, Erwin, Google BigQuery, Hive Metastore, Looker, MongoDB, MySQL, Oracle, PostgreSQL, Salesforce, SAP BW, SAP ECC, SAP HANA, SAP S/4HANA, Snowflake y Teradata. Cuando se elimina el objeto del origen de datos, el examen posterior no quitará automáticamente el recurso correspondiente en Microsoft Purview.

Ingestión

La ingesta es el proceso responsable de rellenar el mapa de datos con metadatos recopilados a través de sus diversos procesos.

Ingesta de exámenes

A continuación, los metadatos técnicos o las clasificaciones identificados por el proceso de examen se envían a la ingesta. La ingesta analiza la entrada del examen, aplica patrones de conjunto de recursos, rellena la información de linaje disponible y, a continuación, carga el mapa de datos automáticamente. Los recursos o esquemas solo se pueden detectar o seleccionar una vez completada la ingesta. Por lo tanto, si el examen se ha completado pero no ha visto los recursos en el mapa de datos o el catálogo, tendrá que esperar a que finalice el proceso de ingesta.

Ingesta desde conexiones de linaje

Los recursos como Azure Data Factory y Azure Synapse se pueden conectar a Microsoft Purview para incluir información de origen de datos y linaje en el Mapa de datos de Microsoft Purview. Por ejemplo, cuando se ejecuta una canalización de copia en un Azure Data Factory que se ha conectado a Microsoft Purview, los metadatos sobre los orígenes de entrada, la actividad y los orígenes de salida se ingieren en Microsoft Purview y la información se agrega al mapa de datos.

Si ya se ha agregado un origen de datos al mapa de datos a través de un examen, se agregará información de linaje sobre la actividad al origen existente. Si el origen de datos aún no se ha agregado al mapa de datos, el proceso de ingesta de linaje lo agregará a la colección raíz con su información de linaje.

Para obtener más información sobre las conexiones de linaje disponibles, consulte la guía del usuario de linaje.

Siguientes pasos

Para obtener más información, o para obtener instrucciones específicas para examinar orígenes, siga los vínculos siguientes.