Sources de données et types de fichiers pris en charge
Cet article décrit les sources de données, les types de fichiers et les concepts d’analyse actuellement pris en charge dans le Mappage de données Microsoft Purview.
Mappage de données Microsoft Purview sources de données disponibles
Le tableau ci-dessous présente toutes les sources dont les métadonnées techniques sont disponibles dans Microsoft Purview. Sélectionnez la source de données pour en savoir plus. Le tableau répertorie également les fonctionnalités supplémentaires prises en charge pour chaque source de données, et vous pouvez sélectionner la fonctionnalité pour plus d’informations.
Catégorie | Magasin de données pris en charge | Classification | Affichage en direct | Lignée | Étiquetage | Stratégie d’accès | Partage de données |
---|---|---|---|---|---|---|---|
Azure | Sources multiples | Oui | Limitée | Non | Dépendant de la source | Oui | Non |
Stockage Blob Azure | Oui | Oui | Limitée* | Oui | Oui (préversion) | Oui | |
Azure Cosmos DB (API pour NoSQL) | Oui | Non | Non* | Oui | Non | Non | |
Azure Data Explorer | Oui | Non | Non* | Oui | Non | Non | |
Azure Data Factory | Non | Non | Oui | Non | Non | Non | |
Azure Data Lake Storage Gen1 | Oui | Non | Limitée* | Oui | Non | Non | |
Azure Data Lake Storage Gen2 | Oui | Oui | Limitée* | Oui | Oui (préversion) | Oui | |
Azure Data Share | Non | Non | Oui | Non | Non | Non | |
Azure Database pour MySQL | Oui | Non | Non* | Oui | Non | Non | |
Azure Database pour PostgreSQL | Oui | Non | Non* | Oui | Non | Non | |
Azure Databricks | Non | Non | Oui | Non | Non | Non | |
Catalogue Unity Azure Databricks | Non | Non | Non | Non | Non | Non | |
Pool SQL dédié Azure (anciennement SQL DW) | Oui | Non | Non* | Non | Non | Non | |
Azure Files | Oui | Non | Limitée* | Oui | Non | Non | |
Azure Machine Learning | Non | Non | Oui | Non | Non | Non | |
base de données Azure SQL | Oui | Oui | Oui (préversion) | Oui | Oui | Non | |
Azure SQL Managed Instance | Oui | Non | Non* | Oui | Oui (préversion) | Non | |
Azure Synapse Analytics (espace de travail) | Oui | Non | Oui - Pipelines Synapse | Oui | Non | Non | |
Database | Amazon RDS | Oui | Non | Non | Non | Non | Non |
Amazon Redshift | Non | Non | Non | Non | Non | Non | |
Cassandra | Non | Non | Oui | Non | Non | Non | |
Db2 | Non | Non | Oui | Non | Non | Non | |
Google BigQuery | Non | Non | Oui | Non | Non | Non | |
Base de données de metastore Hive | Non | Non | Oui* | Non | Non | Non | |
Mongodb | Non | Non | Non | Non | Non | Non | |
Mysql | Non | Non | Oui | Non | Non | Non | |
Oracle | Oui | Non | Oui* | Non | Non | Non | |
Postgresql | Non | Non | Oui | Non | Non | Non | |
SAP Business Warehouse | Non | Non | Non | Non | Non | Non | |
SAP HANA | Non | Non | Non | Non | Non | Non | |
Flocon | Oui | Non | Oui | Non | Non | Non | |
SQL Server | Oui | Non | Non* | Oui | Non | Non | |
SQL Server sur Azure-Arc | Oui | Non | Non* | Non | Oui | Non | |
Teradata | Oui | Non | Oui* | Non | Non | Non | |
Fichier | Amazon S3 | Oui | Non | Limitée* | Oui | Non | Non |
HDFS | Oui | Non | Non | Non | Non | Non | |
Services et applications | Air | Non | Non | Oui | Non | Non | Non |
Erwin | Non | Non | Oui | Non | Non | Non | |
Spectateur | Non | Non | Oui | Non | Non | Non | |
Power BI | Non | Non | Oui | Non | Non | Non | |
Salesforce | Non | Non | Non | Non | Non | Non | |
SAP ECC | Non | Non | Oui* | Non | Non | Non | |
SAP S/4HANA | Non | Non | Oui* | Non | Non | Non |
* Outre la traçabilité des ressources dans la source de données, la traçabilité est également prise en charge si le jeu de données est utilisé comme source/récepteur dans Data Factory ou le pipeline Synapse.
Remarque
Actuellement, le Mappage de données Microsoft Purview ne peut pas analyser une ressource qui a /
, \
ou #
dans son nom. Pour définir l’étendue de votre analyse et éviter d’analyser les ressources qui ont ces caractères dans le nom de la ressource, utilisez l’exemple dans Inscrire et analyser une base de données Azure SQL.
Importante
Si vous envisagez d’utiliser un runtime d’intégration auto-hébergé, l’analyse de certaines sources de données nécessite une configuration supplémentaire sur l’ordinateur du runtime d’intégration auto-hébergé. Par exemple, JDK, Visual C++ Redistributable ou un pilote spécifique. Pour votre source, reportez-vous à chaque article source pour plus d’informations sur les prérequis. Toutes les exigences sont répertoriées dans la section Prérequis.
Analyser les régions
Voici la liste de toutes les régions de source de données Azure (centre de données) dans lesquelles le scanneur Mappage de données Microsoft Purview s’exécute. Si votre source de données Azure se trouve dans une région en dehors de cette liste, le scanneur s’exécute dans la région de votre instance Microsoft Purview.
Mappage de données Microsoft Purview régions du scanneur
- Australie Est
- Australie Sud-Est
- Brésil Sud
- Canada Centre
- Canada Est
- Inde Centre
- Chine Nord 3
- Asie Est
- USA Est
- USA Est 2
- France Centre
- Centre Ouest de l’Allemagne
- Japon Est
- Corée Centre
- USA Centre Nord
- Europe Nord
- Qatar Centre
- Afrique du Sud Nord
- USA Centre Sud
- Asie Sud-Est
- Suisse Nord
- Émirats arabes unis Nord
- Sud du Royaume-Uni
- USGov Virginie
- USA Centre Ouest
- Europe Ouest
- USA Ouest
- USA Ouest 2
- USA Ouest 3
Types de fichiers pris en charge pour l’analyse
Les types de fichiers suivants sont pris en charge pour l’analyse, l’extraction de schéma et la classification, le cas échéant :
- Les formats de fichiers structurés pris en charge par l’extension incluent l’analyse, l’extraction de schéma et la classification au niveau des ressources et des colonnes : AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
- Les formats de fichier de document pris en charge par l’extension incluent l’analyse et la classification au niveau des ressources : DOC, DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPTM, PPTX, XLC, XLS, XLSB, XLSM, XLSX, XLT
- Le Mappage de données Microsoft Purview prend également en charge les extensions de fichiers personnalisées et les analyseurs personnalisés.
Remarque
Limitations connues :
- Le scanneur Mappage de données Microsoft Purview prend uniquement en charge l’extraction de schéma pour les types de fichiers structurés répertoriés ci-dessus.
- Pour les types de fichiers AVRO, ORC et PARQUET, le scanneur ne prend pas en charge l’extraction de schéma pour les fichiers qui contiennent des types de données complexes (par exemple, MAP, LIST, STRUCT).
- Le scanneur prend en charge l’analyse des types PARQUET compressés snappy pour l’extraction et la classification du schéma.
- Pour les types de fichiers GZIP, le GZIP doit être mappé à un seul fichier csv dans. Les fichiers Gzip sont soumis aux règles de classification système et personnalisée. Actuellement, nous ne prenons pas en charge l’analyse d’un fichier gzip mappé à plusieurs fichiers dans, ou tout type de fichier autre que csv.
- Pour les types de fichiers délimités (CSV, PSV, SSV, TSV, TXT) :
- Nous ne prenons pas en charge la détection de type de données. Le type de données est répertorié sous la forme « string » pour toutes les colonnes.
- Nous prenons uniquement en charge la virgule(','), le point-virgule(';'), la barre verticale('|') et la tabulation('\t') comme délimiteurs.
- Les fichiers délimités avec moins de trois lignes ne peuvent pas être considérés comme des fichiers CSV s’ils utilisent un délimiteur personnalisé. Par exemple : les fichiers avec ~ délimiteur et moins de trois lignes ne peuvent pas être déterminés comme des fichiers CSV.
- Si un champ contient des guillemets doubles, les guillemets doubles ne peuvent apparaître qu’au début et à la fin du champ et doivent être mis en correspondance. Les guillemets doubles qui apparaissent au milieu du champ ou qui apparaissent au début et à la fin, mais qui ne sont pas mis en correspondance, sont reconnus comme des données incorrectes et aucun schéma n’est analysé à partir du fichier. Les lignes dont le nombre de colonnes est différent de celui de la ligne d’en-tête sont considérées comme des lignes d’erreur. (nombre de lignes d’erreur /nombre de lignes échantillonnées ) doit être inférieur à 0,1.
- Pour les fichiers Parquet, si vous utilisez un runtime d’intégration auto-hébergé, vous devez installer le JRE 11 (Java Runtime Environment) 64 bits ou OpenJDK sur votre ordinateur ir. Consultez notre section Java Runtime Environment en bas de la page pour obtenir un guide d’installation.
Extraction de schéma
Actuellement, le nombre maximal de colonnes prises en charge dans l’onglet schéma de ressource est de 800 pour les sources Azure, Power BI et SQL Server.
Données imbriquées
Actuellement, les données imbriquées sont uniquement prises en charge pour le contenu JSON.
Pour tous les types de fichiers pris en charge par le système, s’il existe du contenu JSON imbriqué dans une colonne, le scanneur analyse les données JSON imbriquées et les expose dans l’onglet schéma de la ressource.
Les données imbriquées ou l’analyse de schéma imbriquée ne sont pas prises en charge dans SQL. Une colonne avec des données imbriquées est signalée et classifiée telle quelle, et les sous-données ne sont pas analysées.
Données d’échantillonnage pour la classification
Dans Mappage de données Microsoft Purview terminologie,
- Analyse L1 : extrait les informations de base et les métadonnées telles que le nom de fichier, la taille et le nom complet
- Analyse L2 : extrait le schéma des types de fichiers structurés et des tables de base de données
- Analyse L3 : extrait le schéma le cas échéant et soumet le fichier échantillonné aux règles de classification système et personnalisées
Pour tous les formats de fichiers structurés, le scanneur Mappage de données Microsoft Purview échantillonne les fichiers de la manière suivante :
- Pour les types de fichiers structurés, il échantillonne les 128 premières lignes de chaque colonne ou les 1 premiers Mo, selon la valeur la plus faible.
- Pour les formats de fichier de document, il échantillonne les 20 premiers Mo de chaque fichier.
- Si un fichier document dépasse 20 Mo, il n’est pas soumis à une analyse approfondie (sous réserve de classification). Dans ce cas, Microsoft Purview capture uniquement les métadonnées de base telles que le nom de fichier et le nom complet.
- Pour les sources de données tabulaires (SQL), il échantillonne les 128 premières lignes.
- Pour Azure Cosmos DB for NoSQL, jusqu’à 300 propriétés distinctes des 10 premiers documents d’un conteneur seront collectées pour le schéma et, pour chaque propriété, les valeurs de jusqu’à 128 documents ou les 1 premiers Mo seront échantillonnées.
Échantillonnage des fichiers de jeu de ressources
Un dossier ou un groupe de fichiers de partition est détecté en tant qu’ensemble de ressources dans le Mappage de données Microsoft Purview s’il correspond à une stratégie de jeu de ressources système ou à une stratégie de jeu de ressources définie par le client. Si un jeu de ressources est détecté, le scanneur échantillonnera chaque dossier qu’il contient. En savoir plus sur les jeux de ressources ici.
Échantillonnage de fichiers pour les jeux de ressources par types de fichiers :
- Fichiers délimités (CSV, PSV, SSV, TSV) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
- Types de fichiers Data Lake (Parquet, Avro, Orc) : 1 dans 18446744073709551615 fichiers (long max) sont échantillonnées (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
- Autres types de fichiers structurés (JSON, XML, TXT) : 1 fichier sur 100 est échantillonné (analyse L3) dans un dossier ou un groupe de fichiers de partition considérés comme un « jeu de ressources »
- Objets SQL et entités Azure Cosmos DB : chaque fichier est analysé l3.
- Types de fichiers de document : chaque fichier est analysé L3. Les modèles de jeu de ressources ne s’appliquent pas à ces types de fichiers.
Prochaines étapes
Commentaires
https://aka.ms/ContentUserFeedback.
Bientôt disponible : Tout au long de 2024, nous allons supprimer progressivement GitHub Issues comme mécanisme de commentaires pour le contenu et le remplacer par un nouveau système de commentaires. Pour plus d’informations, consultezEnvoyer et afficher des commentaires pour