Sources de données et types de fichiers pris en charge

Cet article décrit les sources de données, les types de fichiers et les concepts d’analyse actuellement pris en charge dans le Mappage de données Microsoft Purview.

Mappage de données Microsoft Purview sources de données disponibles

Le tableau ci-dessous présente toutes les sources dont les métadonnées techniques sont disponibles dans Microsoft Purview. Sélectionnez la source de données pour en savoir plus. Le tableau répertorie également les fonctionnalités supplémentaires prises en charge pour chaque source de données, et vous pouvez sélectionner la fonctionnalité pour plus d’informations.

Catégorie Magasin de données pris en charge Classification Affichage en direct Lignée Étiquetage Stratégie d’accès Partage de données
Azure Sources multiples Oui Limitée Non Dépendant de la source Oui Non
Stockage Blob Azure Oui Oui Limitée* Oui Oui (préversion) Oui
Azure Cosmos DB (API pour NoSQL) Oui Non Non* Oui Non Non
Azure Data Explorer Oui Non Non* Oui Non Non
Azure Data Factory Non Non Oui Non Non Non
Azure Data Lake Storage Gen1 Oui Non Limitée* Oui Non Non
Azure Data Lake Storage Gen2 Oui Oui Limitée* Oui Oui (préversion) Oui
Azure Data Share Non Non Oui Non Non Non
Azure Database pour MySQL Oui Non Non* Oui Non Non
Azure Database pour PostgreSQL Oui Non Non* Oui Non Non
Azure Databricks Non Non Oui Non Non Non
Catalogue Unity Azure Databricks Non Non Non Non Non Non
Pool SQL dédié Azure (anciennement SQL DW) Oui Non Non* Non Non Non
Azure Files Oui Non Limitée* Oui Non Non
Azure Machine Learning Non Non Oui Non Non Non
base de données Azure SQL Oui Oui Oui (préversion) Oui Oui Non
Azure SQL Managed Instance Oui Non Non* Oui Oui (préversion) Non
Azure Synapse Analytics (espace de travail) Oui Non Oui - Pipelines Synapse Oui Non Non
Database Amazon RDS Oui Non Non Non Non Non
Amazon Redshift Non Non Non Non Non Non
Cassandra Non Non Oui Non Non Non
Db2 Non Non Oui Non Non Non
Google BigQuery Non Non Oui Non Non Non
Base de données de metastore Hive Non Non Oui* Non Non Non
Mongodb Non Non Non Non Non Non
Mysql Non Non Oui Non Non Non
Oracle Oui Non Oui* Non Non Non
Postgresql Non Non Oui Non Non Non
SAP Business Warehouse Non Non Non Non Non Non
SAP HANA Non Non Non Non Non Non
Flocon Oui Non Oui Non Non Non
SQL Server Oui Non Non* Oui Non Non
SQL Server sur Azure-Arc Oui Non Non* Non Oui Non
Teradata Oui Non Oui* Non Non Non
Fichier Amazon S3 Oui Non Limitée* Oui Non Non
HDFS Oui Non Non Non Non Non
Services et applications Air Non Non Oui Non Non Non
Erwin Non Non Oui Non Non Non
Spectateur Non Non Oui Non Non Non
Power BI Non Non Oui Non Non Non
Salesforce Non Non Non Non Non Non
SAP ECC Non Non Oui* Non Non Non
SAP S/4HANA Non Non Oui* Non Non Non

* Outre la traçabilité des ressources dans la source de données, la traçabilité est également prise en charge si le jeu de données est utilisé comme source/récepteur dans Data Factory ou le pipeline Synapse.

Remarque

Actuellement, le Mappage de données Microsoft Purview ne peut pas analyser une ressource qui a /, \ou # dans son nom. Pour définir l’étendue de votre analyse et éviter d’analyser les ressources qui ont ces caractères dans le nom de la ressource, utilisez l’exemple dans Inscrire et analyser une base de données Azure SQL.

Importante

Si vous envisagez d’utiliser un runtime d’intégration auto-hébergé, l’analyse de certaines sources de données nécessite une configuration supplémentaire sur l’ordinateur du runtime d’intégration auto-hébergé. Par exemple, JDK, Visual C++ Redistributable ou un pilote spécifique. Pour votre source, reportez-vous à chaque article source pour plus d’informations sur les prérequis. Toutes les exigences sont répertoriées dans la section Prérequis.

Analyser les régions

Voici la liste de toutes les régions de source de données Azure (centre de données) dans lesquelles le scanneur Mappage de données Microsoft Purview s’exécute. Si votre source de données Azure se trouve dans une région en dehors de cette liste, le scanneur s’exécute dans la région de votre instance Microsoft Purview.

Mappage de données Microsoft Purview régions du scanneur

  • Australie Est
  • Australie Sud-Est
  • Brésil Sud
  • Canada Centre
  • Canada Est
  • Inde Centre
  • Chine Nord 3
  • Asie Est
  • USA Est
  • USA Est 2
  • France Centre
  • Centre Ouest de l’Allemagne
  • Japon Est
  • Corée Centre
  • USA Centre Nord
  • Europe Nord
  • Qatar Centre
  • Afrique du Sud Nord
  • USA Centre Sud
  • Asie Sud-Est
  • Suisse Nord
  • Émirats arabes unis Nord
  • Sud du Royaume-Uni
  • USGov Virginie
  • USA Centre Ouest
  • Europe Ouest
  • USA Ouest
  • USA Ouest 2
  • USA Ouest 3

Types de fichiers pris en charge pour l’analyse

Les types de fichiers suivants sont pris en charge pour l’analyse, l’extraction de schéma et la classification, le cas échéant :

  • Les formats de fichiers structurés pris en charge par l’extension incluent l’analyse, l’extraction de schéma et la classification au niveau des ressources et des colonnes : AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • Les formats de fichier de document pris en charge par l’extension incluent l’analyse et la classification au niveau des ressources : DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
  • Le Mappage de données Microsoft Purview prend également en charge les extensions de fichiers personnalisées et les analyseurs personnalisés.

Remarque

Limitations connues :

  • Le scanneur Mappage de données Microsoft Purview prend uniquement en charge l’extraction de schéma pour les types de fichiers structurés répertoriés ci-dessus.
  • Pour les types de fichiers AVRO, ORC et PARQUET, le scanneur ne prend pas en charge l’extraction de schéma pour les fichiers qui contiennent des types de données complexes (par exemple, MAP, LIST, STRUCT).
  • Le scanneur prend en charge l’analyse des types PARQUET compressés snappy pour l’extraction et la classification du schéma.
  • Pour les types de fichiers GZIP, le GZIP doit être mappé à un seul fichier csv dans. Les fichiers Gzip sont soumis aux règles de classification système et personnalisée. Actuellement, nous ne prenons pas en charge l’analyse d’un fichier gzip mappé à plusieurs fichiers dans, ou tout type de fichier autre que csv.
  • Pour les types de fichiers délimités (CSV, PSV, SSV, TSV, TXT) :
    • Nous ne prenons pas en charge la détection de type de données. Le type de données est répertorié sous la forme « string » pour toutes les colonnes.
    • Nous prenons uniquement en charge la virgule(','), le point-virgule(';'), la barre verticale('|') et la tabulation('\t') comme délimiteurs.
    • Les fichiers délimités avec moins de trois lignes ne peuvent pas être considérés comme des fichiers CSV s’ils utilisent un délimiteur personnalisé. Par exemple : les fichiers avec ~ délimiteur et moins de trois lignes ne peuvent pas être déterminés comme des fichiers CSV.
    • Si un champ contient des guillemets doubles, les guillemets doubles ne peuvent apparaître qu’au début et à la fin du champ et doivent être mis en correspondance. Les guillemets doubles qui apparaissent au milieu du champ ou qui apparaissent au début et à la fin, mais qui ne sont pas mis en correspondance, sont reconnus comme des données incorrectes et aucun schéma n’est analysé à partir du fichier. Les lignes dont le nombre de colonnes est différent de celui de la ligne d’en-tête sont considérées comme des lignes d’erreur. (nombre de lignes d’erreur /nombre de lignes échantillonnées ) doit être inférieur à 0,1.
  • Pour les fichiers Parquet, si vous utilisez un runtime d’intégration auto-hébergé, vous devez installer le JRE 11 (Java Runtime Environment) 64 bits ou OpenJDK sur votre ordinateur ir. Consultez notre section Java Runtime Environment en bas de la page pour obtenir un guide d’installation.

Extraction de schéma

Actuellement, le nombre maximal de colonnes prises en charge dans l’onglet schéma de ressource est de 800 pour les sources Azure, Power BI et SQL Server.

Données imbriquées

Actuellement, les données imbriquées sont uniquement prises en charge pour le contenu JSON.

Pour tous les types de fichiers pris en charge par le système, s’il existe du contenu JSON imbriqué dans une colonne, le scanneur analyse les données JSON imbriquées et les expose dans l’onglet schéma de la ressource.

Les données imbriquées ou l’analyse de schéma imbriquée ne sont pas prises en charge dans SQL. Une colonne avec des données imbriquées est signalée et classifiée telle quelle, et les sous-données ne sont pas analysées.

Données d’échantillonnage pour la classification

Dans Mappage de données Microsoft Purview terminologie,

  • Analyse L1 : extrait les informations de base et les métadonnées telles que le nom de fichier, la taille et le nom complet
  • Analyse L2 : extrait le schéma des types de fichiers structurés et des tables de base de données
  • Analyse L3 : extrait le schéma le cas échéant et soumet le fichier échantillonné aux règles de classification système et personnalisées

Pour tous les formats de fichiers structurés, le scanneur Mappage de données Microsoft Purview échantillonne les fichiers de la manière suivante :

  • Pour les types de fichiers structurés, il échantillonne les 128 premières lignes de chaque colonne ou les 1 premiers Mo, selon la valeur la plus faible.
  • Pour les formats de fichier de document, il échantillonne les 20 premiers Mo de chaque fichier.
    • Si un fichier document dépasse 20 Mo, il n’est pas soumis à une analyse approfondie (sous réserve de classification). Dans ce cas, Microsoft Purview capture uniquement les métadonnées de base telles que le nom de fichier et le nom complet.
  • Pour les sources de données tabulaires (SQL), il échantillonne les 128 premières lignes.
  • Pour Azure Cosmos DB for NoSQL, jusqu’à 300 propriétés distinctes des 10 premiers documents d’un conteneur seront collectées pour le schéma et, pour chaque propriété, les valeurs de jusqu’à 128 documents ou les 1 premiers Mo seront échantillonnées.

Échantillonnage des fichiers de jeu de ressources

Un dossier ou un groupe de fichiers de partition est détecté en tant qu’ensemble de ressources dans le Mappage de données Microsoft Purview s’il correspond à une stratégie de jeu de ressources système ou à une stratégie de jeu de ressources définie par le client. Si un jeu de ressources est détecté, le scanneur échantillonnera chaque dossier qu’il contient. En savoir plus sur les jeux de ressources ici.

Échantillonnage de fichiers pour les jeux de ressources par types de fichiers :

  • Fichiers délimités (CSV, PSV, SSV, TSV) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
  • Types de fichiers Data Lake (Parquet, Avro, Orc) : 1 dans 18446744073709551615 fichiers (long max) sont échantillonnées (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
  • Autres types de fichiers structurés (JSON, XML, TXT) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
  • Objets SQL et entités Azure Cosmos DB : chaque fichier est analysé l3.
  • Types de fichiers de document : chaque fichier est analysé L3. Les modèles de jeu de ressources ne s’appliquent pas à ces types de fichiers.

Prochaines étapes