Sources de données et types de fichiers pris en charge

Article
09/22/2023

Cet article décrit les sources de données, les types de fichiers et les concepts d’analyse actuellement pris en charge dans le Mappage de données Microsoft Purview.

Mappage de données Microsoft Purview sources de données disponibles

Le tableau ci-dessous présente toutes les sources dont les métadonnées techniques sont disponibles dans Microsoft Purview. Sélectionnez la source de données pour en savoir plus. Le tableau répertorie également les fonctionnalités supplémentaires prises en charge pour chaque source de données, et vous pouvez sélectionner la fonctionnalité pour plus d’informations.

Catégorie	Magasin de données pris en charge	Classification	Affichage en direct	Lignée	Étiquetage	Stratégie d’accès	Partage de données
Azure	Sources multiples	Oui	Limitée	Non	Dépendant de la source	Oui	Non
	Stockage Blob Azure	Oui	Oui	Limitée*	Oui	Oui (préversion)	Oui
	Azure Cosmos DB (API pour NoSQL)	Oui	Non	Non*	Oui	Non	Non
	Azure Data Explorer	Oui	Non	Non*	Oui	Non	Non
	Azure Data Factory	Non	Non	Oui	Non	Non	Non
	Azure Data Lake Storage Gen1	Oui	Non	Limitée*	Oui	Non	Non
	Azure Data Lake Storage Gen2	Oui	Oui	Limitée*	Oui	Oui (préversion)	Oui
	Azure Data Share	Non	Non	Oui	Non	Non	Non
	Azure Database pour MySQL	Oui	Non	Non*	Oui	Non	Non
	Azure Database pour PostgreSQL	Oui	Non	Non*	Oui	Non	Non
	Azure Databricks	Non	Non	Oui	Non	Non	Non
	Catalogue Unity Azure Databricks	Non	Non	Non	Non	Non	Non
	Pool SQL dédié Azure (anciennement SQL DW)	Oui	Non	Non*	Non	Non	Non
	Azure Files	Oui	Non	Limitée*	Oui	Non	Non
	Azure Machine Learning	Non	Non	Oui	Non	Non	Non
	base de données Azure SQL	Oui	Oui	Oui (préversion)	Oui	Oui	Non
	Azure SQL Managed Instance	Oui	Non	Non*	Oui	Oui (préversion)	Non
	Azure Synapse Analytics (espace de travail)	Oui	Non	Oui - Pipelines Synapse	Oui	Non	Non
Database	Amazon RDS	Oui	Non	Non	Non	Non	Non
	Amazon Redshift	Non	Non	Non	Non	Non	Non
	Cassandra	Non	Non	Oui	Non	Non	Non
	Db2	Non	Non	Oui	Non	Non	Non
	Google BigQuery	Non	Non	Oui	Non	Non	Non
	Base de données de metastore Hive	Non	Non	Oui*	Non	Non	Non
	Mongodb	Non	Non	Non	Non	Non	Non
	Mysql	Non	Non	Oui	Non	Non	Non
	Oracle	Oui	Non	Oui*	Non	Non	Non
	Postgresql	Non	Non	Oui	Non	Non	Non
	SAP Business Warehouse	Non	Non	Non	Non	Non	Non
	SAP HANA	Non	Non	Non	Non	Non	Non
	Flocon	Oui	Non	Oui	Non	Non	Non
	SQL Server	Oui	Non	Non*	Oui	Non	Non
	SQL Server sur Azure-Arc	Oui	Non	Non*	Non	Oui	Non
	Teradata	Oui	Non	Oui*	Non	Non	Non
Fichier	Amazon S3	Oui	Non	Limitée*	Oui	Non	Non
	HDFS	Oui	Non	Non	Non	Non	Non
Services et applications	Air	Non	Non	Oui	Non	Non	Non
	Erwin	Non	Non	Oui	Non	Non	Non
	Spectateur	Non	Non	Oui	Non	Non	Non
	Power BI	Non	Non	Oui	Non	Non	Non
	Salesforce	Non	Non	Non	Non	Non	Non
	SAP ECC	Non	Non	Oui*	Non	Non	Non
	SAP S/4HANA	Non	Non	Oui*	Non	Non	Non

* Outre la traçabilité des ressources dans la source de données, la traçabilité est également prise en charge si le jeu de données est utilisé comme source/récepteur dans Data Factory ou le pipeline Synapse.

Remarque

Actuellement, le Mappage de données Microsoft Purview ne peut pas analyser une ressource qui a /, \ou # dans son nom. Pour définir l’étendue de votre analyse et éviter d’analyser les ressources qui ont ces caractères dans le nom de la ressource, utilisez l’exemple dans Inscrire et analyser une base de données Azure SQL.

Importante

Si vous envisagez d’utiliser un runtime d’intégration auto-hébergé, l’analyse de certaines sources de données nécessite une configuration supplémentaire sur l’ordinateur du runtime d’intégration auto-hébergé. Par exemple, JDK, Visual C++ Redistributable ou un pilote spécifique. Pour votre source, reportez-vous à chaque article source pour plus d’informations sur les prérequis. Toutes les exigences sont répertoriées dans la section Prérequis.

Analyser les régions

Voici la liste de toutes les régions de source de données Azure (centre de données) dans lesquelles le scanneur Mappage de données Microsoft Purview s’exécute. Si votre source de données Azure se trouve dans une région en dehors de cette liste, le scanneur s’exécute dans la région de votre instance Microsoft Purview.

Mappage de données Microsoft Purview régions du scanneur

Australie Est
Australie Sud-Est
Brésil Sud
Canada Centre
Canada Est
Inde Centre
Chine Nord 3
Asie Est
USA Est
USA Est 2
France Centre
Centre Ouest de l’Allemagne
Japon Est
Corée Centre
USA Centre Nord
Europe Nord
Qatar Centre
Afrique du Sud Nord
USA Centre Sud
Asie Sud-Est
Suisse Nord
Émirats arabes unis Nord
Sud du Royaume-Uni
USGov Virginie
USA Centre Ouest
Europe Ouest
USA Ouest
USA Ouest 2
USA Ouest 3

Types de fichiers pris en charge pour l’analyse

Les types de fichiers suivants sont pris en charge pour l’analyse, l’extraction de schéma et la classification, le cas échéant :

Les formats de fichiers structurés pris en charge par l’extension incluent l’analyse, l’extraction de schéma et la classification au niveau des ressources et des colonnes : AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
Les formats de fichier de document pris en charge par l’extension incluent l’analyse et la classification au niveau des ressources : DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
Le Mappage de données Microsoft Purview prend également en charge les extensions de fichiers personnalisées et les analyseurs personnalisés.

Remarque

Limitations connues :

Le scanneur Mappage de données Microsoft Purview prend uniquement en charge l’extraction de schéma pour les types de fichiers structurés répertoriés ci-dessus.
Pour les types de fichiers AVRO, ORC et PARQUET, le scanneur ne prend pas en charge l’extraction de schéma pour les fichiers qui contiennent des types de données complexes (par exemple, MAP, LIST, STRUCT).
Le scanneur prend en charge l’analyse des types PARQUET compressés snappy pour l’extraction et la classification du schéma.
Pour les types de fichiers GZIP, le GZIP doit être mappé à un seul fichier csv dans. Les fichiers Gzip sont soumis aux règles de classification système et personnalisée. Actuellement, nous ne prenons pas en charge l’analyse d’un fichier gzip mappé à plusieurs fichiers dans, ou tout type de fichier autre que csv.
Pour les types de fichiers délimités (CSV, PSV, SSV, TSV, TXT) :
- Nous ne prenons pas en charge la détection de type de données. Le type de données est répertorié sous la forme « string » pour toutes les colonnes.
- Nous prenons uniquement en charge la virgule(','), le point-virgule(';'), la barre verticale('|') et la tabulation('\t') comme délimiteurs.
- Les fichiers délimités avec moins de trois lignes ne peuvent pas être considérés comme des fichiers CSV s’ils utilisent un délimiteur personnalisé. Par exemple : les fichiers avec ~ délimiteur et moins de trois lignes ne peuvent pas être déterminés comme des fichiers CSV.
- Si un champ contient des guillemets doubles, les guillemets doubles ne peuvent apparaître qu’au début et à la fin du champ et doivent être mis en correspondance. Les guillemets doubles qui apparaissent au milieu du champ ou qui apparaissent au début et à la fin, mais qui ne sont pas mis en correspondance, sont reconnus comme des données incorrectes et aucun schéma n’est analysé à partir du fichier. Les lignes dont le nombre de colonnes est différent de celui de la ligne d’en-tête sont considérées comme des lignes d’erreur. (nombre de lignes d’erreur /nombre de lignes échantillonnées ) doit être inférieur à 0,1.
Pour les fichiers Parquet, si vous utilisez un runtime d’intégration auto-hébergé, vous devez installer le JRE 11 (Java Runtime Environment) 64 bits ou OpenJDK sur votre ordinateur ir. Consultez notre section Java Runtime Environment en bas de la page pour obtenir un guide d’installation.

Extraction de schéma

Actuellement, le nombre maximal de colonnes prises en charge dans l’onglet schéma de ressource est de 800 pour les sources Azure, Power BI et SQL Server.

Données imbriquées

Actuellement, les données imbriquées sont uniquement prises en charge pour le contenu JSON.

Pour tous les types de fichiers pris en charge par le système, s’il existe du contenu JSON imbriqué dans une colonne, le scanneur analyse les données JSON imbriquées et les expose dans l’onglet schéma de la ressource.

Les données imbriquées ou l’analyse de schéma imbriquée ne sont pas prises en charge dans SQL. Une colonne avec des données imbriquées est signalée et classifiée telle quelle, et les sous-données ne sont pas analysées.

Données d’échantillonnage pour la classification

Dans Mappage de données Microsoft Purview terminologie,

Analyse L1 : extrait les informations de base et les métadonnées telles que le nom de fichier, la taille et le nom complet
Analyse L2 : extrait le schéma des types de fichiers structurés et des tables de base de données
Analyse L3 : extrait le schéma le cas échéant et soumet le fichier échantillonné aux règles de classification système et personnalisées

Pour tous les formats de fichiers structurés, le scanneur Mappage de données Microsoft Purview échantillonne les fichiers de la manière suivante :

Pour les types de fichiers structurés, il échantillonne les 128 premières lignes de chaque colonne ou les 1 premiers Mo, selon la valeur la plus faible.
Pour les formats de fichier de document, il échantillonne les 20 premiers Mo de chaque fichier.
- Si un fichier document dépasse 20 Mo, il n’est pas soumis à une analyse approfondie (sous réserve de classification). Dans ce cas, Microsoft Purview capture uniquement les métadonnées de base telles que le nom de fichier et le nom complet.
Pour les sources de données tabulaires (SQL), il échantillonne les 128 premières lignes.
Pour Azure Cosmos DB for NoSQL, jusqu’à 300 propriétés distinctes des 10 premiers documents d’un conteneur seront collectées pour le schéma et, pour chaque propriété, les valeurs de jusqu’à 128 documents ou les 1 premiers Mo seront échantillonnées.

Échantillonnage des fichiers de jeu de ressources

Un dossier ou un groupe de fichiers de partition est détecté en tant qu’ensemble de ressources dans le Mappage de données Microsoft Purview s’il correspond à une stratégie de jeu de ressources système ou à une stratégie de jeu de ressources définie par le client. Si un jeu de ressources est détecté, le scanneur échantillonnera chaque dossier qu’il contient. En savoir plus sur les jeux de ressources ici.

Échantillonnage de fichiers pour les jeux de ressources par types de fichiers :

Fichiers délimités (CSV, PSV, SSV, TSV) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
Types de fichiers Data Lake (Parquet, Avro, Orc) : 1 dans 18446744073709551615 fichiers (long max) sont échantillonnées (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
Autres types de fichiers structurés (JSON, XML, TXT) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
Objets SQL et entités Azure Cosmos DB : chaque fichier est analysé l3.
Types de fichiers de document : chaque fichier est analysé L3. Les modèles de jeu de ressources ne s’appliquent pas à ces types de fichiers.