Tipos de archivo y orígenes de datos admitidos
En este artículo se describen los orígenes de datos, los tipos de archivo y los conceptos de examen que se admiten actualmente en Microsoft Purview.
Orígenes de datos disponibles en el Mapa de datos de Microsoft Purview
En la tabla siguiente se muestran las funcionalidades admitidas para cada origen de datos. Seleccione el origen de datos o la característica para obtener más información.
* Además del linaje de los recursos dentro del origen de datos, también se admite el linaje si el conjunto de datos se usa como origen o receptor en Data Factory o una canalización de Synapse.
Nota
Actualmente, Microsoft Purview no puede examinar un recurso que tenga /, \ o # en el nombre. Para determinar el ámbito del examen y evitar examinar recursos que tengan esos caracteres en el nombre, use el ejemplo de Registro y examen de una instancia de Azure SQL Database.
Importante
Si planea usar un entorno de ejecución de integración autohospedado, el examen de algunos orígenes de datos requiere una configuración adicional en la máquina del entorno. Por ejemplo, JDK, Visual C++ Redistributable o un controlador específico. Para el origen, consulte cada artículo de origen para obtener más información sobre los requisitos previos. Los requisitos se mostrarán en la sección Requisitos previos.
Regiones de la exploración
La siguiente lista muestra todas las regiones de origen de datos de Azure (centro de datos), donde se ejecuta el explorador de Microsoft Purview. Si el origen de datos de Azure se encuentra en una región que no está en esta lista, el explorador se ejecutará en la región de la instancia de Microsoft Purview.
Regiones del analizador de Microsoft Purview
- Este de Australia
- Sudeste de Australia
- Sur de Brasil
- Centro de Canadá
- Centro de la India
- Centro de EE. UU.
- Este de Asia
- Este de EE. UU.
- Este de EE. UU. 2
- Centro de Francia
- Japón Oriental
- Centro de Corea del Sur
- Centro-Norte de EE. UU
- Norte de Europa
- Norte de Sudáfrica
- Centro-sur de EE. UU.
- Sudeste de Asia
- Norte de Emiratos Árabes Unidos
- Sur de Reino Unido
- Centro-Oeste de EE. UU.
- Oeste de Europa
- Oeste de EE. UU.
- Oeste de EE. UU. 2
Tipos de archivo admitidos para examen
Los siguientes tipos de archivo se admiten para los exámenes y para la extracción y clasificación de esquemas, si procede:
- Formatos de archivo estructurados admitidos por extensión: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
Nota
- El analizador de Microsoft Purview solo admite la extracción de esquemas de los tipos de archivo estructurados que se indican arriba.
- En los tipos de archivo AVRO, ORC y PARQUET, el analizador de Microsoft Purview no admite la extracción de esquemas de archivos que contienen tipos de datos complejos (por ejemplo, MAP, LIST, STRUCT).
- El analizador de Microsoft Purview puede examinar tipos de archivo PARQUET comprimidos de forma rápida para la extracción y clasificación de esquemas.
- En el caso de los tipos de archivo GZIP, el archivo GZIP debe asignarse a un único archivo csv dentro de él. Los archivos Gzip están sujetos a reglas de clasificación personalizadas y del sistema. Actualmente no se admite el examen de un archivo Gzip asignado a varios archivos o cualquier otro tipo de archivo que no sea CSV.
- En el caso de los tipos de archivo delimitados (CSV, PSV, SSV, TSV, TXT), no se admite la detección de tipos de datos. El tipo de datos se mostrará como "cadena" para todas las columnas. \
- En el caso de archivos de Parquet, si va a usar el entorno de ejecución de integración autohospedado, debe instalar JRE 8 (Java Runtime Environment) de 64 bits u OpenJDK en la máquina con IR. Consulte nuestra Java Runtime Environment sección en la parte inferior de la página para obtener una guía de instalación.
- Formatos de archivo de documento admitidos por extensión: DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
- Microsoft Purview también admite extensiones de archivo personalizadas y analizadores personalizados.
Datos anidados
Actualmente, los datos anidados solo se admiten para el contenido JSON.
Para todos los tipos de archivo admitidos por el sistema, si hay contenido JSON anidado en una columna, el escáner analiza los datos JSON anidados y los muestra en la pestaña de esquema del recurso.
Los datos anidados o el análisis de esquemas anidados no se admiten en SQL. Una columna con datos anidados se notifica y se clasifica tal como está, y los subdatos no se analizarán.
Muestreo en un archivo
En la terminología de Microsoft Purview,
- Examen L1: extrae información básica y metadatos como el nombre de archivo, el tamaño y el nombre completo
- Examen L2: extrae el esquema de los tipos de archivo estructurados y las tablas de base de datos
- Examen L3: extrae el esquema cuando proceda y somete el archivo muestreado a reglas de clasificación personalizadas y del sistema.
En todos los formatos de archivo estructurados, el examen de Microsoft Purview analiza los archivos de la siguiente manera:
- En el caso de los tipos de archivo estructurados, muestra 128 filas de cada columna o el primer MB, lo que sea menor.
- En el caso de los formatos de archivo de documento, muestra los primeros 20 MB de cada archivo.
- Si un archivo de documento es mayor de 20 MB, no estará sujeto a un examen profundo (sujeto a clasificación). En tal caso, Microsoft Purview captura solo metadatos básicos como el nombre de archivo y el nombre completo.
- Para orígenes de datos tabulares (SQL), muestra las primeras 128 filas.
- Para Azure Cosmos DB (SQL API), se recopilarán 300 propiedades distintas como máximo de los primeros 10 documentos de un contenedor para el esquema, y para cada propiedad, se muestrearán los valores de hasta 128 documentos o el primer 1 MB.
Muestreo de archivos del conjunto de recursos
En Microsoft Purview, una carpeta o grupo de archivos de partición se detecta como un conjunto de recursos si coincide con una directiva de conjuntos de recursos del sistema o con una directiva de conjuntos de recursos que define el cliente. Si se detecta un conjunto de recursos, Microsoft Purview analizará cada carpeta que contenga. Consulte aquí más información sobre los conjuntos de recursos.
Muestreo de archivos para conjuntos de recursos por tipos de archivo:
- Archivos delimitados (CSV, PSV, SSV, TSV) : se muestrea uno de cada 100 archivos (examen L3) de una carpeta o grupo de archivos de partición que se considere un grupo de recursos.
- Tipos de archivo de Data Lake (Parquet, Avro, Orc): se muestrea uno de cada 18446744073709551615 archivos (longitud máxima) (examen L3) de una carpeta o grupo de archivos de partición que se considere un "conjunto de recursos".
- Otros tipos de archivo estructurados (JSON, XML, TXT) : se muestrea uno de cada 100 archivos (examen L3) de una carpeta o grupo de archivos de partición que se considere un grupo de recursos.
- Objetos SQL y entidades de CosmosDB: cada archivo se somete a un examen L3.
- Tipos de archivo de documento: cada archivo se somete a un examen L3. Los patrones de conjuntos de recursos no se aplican a estos tipos de archivo.
clasificación
Las 208 reglas de clasificación del sistema se aplican a los formatos de archivo estructurados. Solo las reglas de clasificación de MCE se aplican a los tipos de archivo de documento (no los patrones de expresiones regulares nativos del examen de datos, detección basada en filtros de Bloom). Para obtener más información sobre las clasificaciones admitidas, consulte Clasificaciones admitidas en Microsoft Purview.