Unterstützte Datenquellen und Dateitypen

In diesem Artikel werden derzeit unterstützte Datenquellen, Dateitypen und Überprüfungskonzepte im Microsoft Purview Data Map.

Microsoft Purview Data Map verfügbaren Datenquellen

In der folgenden Tabelle sind alle Quellen aufgeführt, für die technische Metadaten in Microsoft Purview verfügbar sind. Wählen Sie die Datenquelle aus, um weitere Informationen zu erhalten. Die Tabelle enthält auch zusätzliche unterstützte Funktionen für jede Datenquelle, und Sie können das Feature auswählen, um weitere Informationen zu erhalten.

Kategorie Unterstützter Datenspeicher Klassifizierung Liveansicht Linie Bezeichnen Zugriffsrichtlinie Datenfreigabe
Azure Mehrere Quellen Ja Eingeschränkt Nein Quellenabhängig Ja Nein
Azure Blob Storage Ja Ja Begrenzte* Ja Ja (Vorschau) Ja
Azure Cosmos DB (API for NoSQL) Ja Nein Nein* Ja Nein Nein
Azure Data Explorer Ja Nein Nein* Ja Nein Nein
Azure Data Factory Nein Nein Ja Nein Nein Nein
Azure Data Lake Storage Gen1 Ja Nein Begrenzte* Ja Nein Nein
Azure Data Lake Storage Gen2 Ja Ja Begrenzte* Ja Ja (Vorschau) Ja
Azure Data Share Nein Nein Ja Nein Nein Nein
Azure Database for MySQL Ja Nein Nein* Ja Nein Nein
Azure Database for PostgreSQL Ja Nein Nein* Ja Nein Nein
Azure Databricks Nein Nein Ja Nein Nein Nein
Azure Databricks Unity Catalog Nein Nein Nein Nein Nein Nein
Dedizierter Azure SQL-Pool (früher SQL DW) Ja Nein Nein* Nein Nein Nein
Azure Files Ja Nein Begrenzte* Ja Nein Nein
Azure Machine Learning Nein Nein Ja Nein Nein Nein
Azure SQL-Datenbank Ja Ja Ja (Vorschau) Ja Ja Nein
Azure SQL Managed Instance Ja Nein Nein* Ja Ja (Vorschau) Nein
Azure Synapse Analytics (Arbeitsbereich) Ja Nein Ja– Synapse-Pipelines Ja Nein Nein
Datenbank Amazon RDS Ja Nein Nein Nein Nein Nein
Amazon Redshift Nein Nein Nein Nein Nein Nein
Cassandra Nein Nein Ja Nein Nein Nein
Db2 Nein Nein Ja Nein Nein Nein
Google BigQuery Nein Nein Ja Nein Nein Nein
Hive-Metastore-Datenbank Nein Nein Ja* Nein Nein Nein
Mongodb Nein Nein Nein Nein Nein Nein
Mysql Nein Nein Ja Nein Nein Nein
Oracle Ja Nein Ja* Nein Nein Nein
Postgresql Nein Nein Ja Nein Nein Nein
SAP Business Warehouse Nein Nein Nein Nein Nein Nein
SAP HANA Nein Nein Nein Nein Nein Nein
Schneeflocke Ja Nein Ja Nein Nein Nein
SQL Server Ja Nein Nein* Ja Nein Nein
SQL Server in Azure Arc Ja Nein Nein* Nein Ja Nein
Teradata Ja Nein Ja* Nein Nein Nein
File Amazon S3 Ja Nein Begrenzte* Ja Nein Nein
HDFS Ja Nein Nein Nein Nein Nein
Dienste und Apps Luftstrom Nein Nein Ja Nein Nein Nein
Erwin Nein Nein Ja Nein Nein Nein
Hingucker Nein Nein Ja Nein Nein Nein
Power BI Nein Nein Ja Nein Nein Nein
Salesforce Nein Nein Nein Nein Nein Nein
SAP ECC Nein Nein Ja* Nein Nein Nein
SAP S/4HANA Nein Nein Ja* Nein Nein Nein

* Neben der Herkunft von Ressourcen innerhalb der Datenquelle wird auch die Herkunft unterstützt, wenn das Dataset als Quelle/Senke in Data Factory oder Synapse-Pipeline verwendet wird.

Hinweis

Derzeit kann der Microsoft Purview Data Map keine Medienobjekte scannen, die /, \oder # im Namen enthalten sind. Verwenden Sie das Beispiel unter Registrieren und Überprüfen einer Azure SQL-Datenbank, um den Umfang Ihrer Überprüfung zu erweitern und die Überprüfung von Ressourcen zu vermeiden, die diese Zeichen im Ressourcennamen enthalten.

Wichtig

Wenn Sie eine selbstgehostete Integration Runtime verwenden möchten, erfordert das Überprüfen einiger Datenquellen eine zusätzliche Einrichtung auf dem Computer mit der selbstgehosteten Integration Runtime. Beispielsweise JDK, Visual C++ Redistributable oder ein bestimmter Treiber. Informationen zu Ihrer Quelle finden Sie in jedem Quellartikel, um details zu den Voraussetzungen zu erhalten. Alle Anforderungen werden im Abschnitt Voraussetzungen aufgeführt.

Überprüfen von Regionen

Im Folgenden ist eine Liste aller Azure-Datenquellenregionen (Rechenzentrumsregionen) aufgeführt, in denen der Microsoft Purview Data Map Scanner ausgeführt wird. Wenn sich Ihre Azure-Datenquelle in einer Region außerhalb dieser Liste befindet, wird der Scanner in der Region Ihres Microsoft Purview-instance ausgeführt.

Microsoft Purview Data Map Scannerregionen

  • Australien (Osten)
  • Australien (Südosten)
  • Brasilien, Süden
  • Kanada, Mitte
  • Kanada, Osten
  • Indien, Mitte
  • China, Norden 3
  • Ostasien
  • USA (Osten)
  • USA (Osten) 2
  • Frankreich, Mitte
  • Deutschland, Westen-Mitte
  • Japan Osten
  • Korea, Mitte
  • USA (Norden, Mitte)
  • Nordeuropa
  • Katar, Mitte
  • Südafrika, Norden
  • USA (Süden, Mitte)
  • Südostasien
  • Schweiz, Norden
  • VAE, Norden
  • Vereinigtes Königreich (Süden)
  • USGov Virginia
  • USA (Westen, Mitte)
  • Westeuropa
  • USA (Westen)
  • USA (Westen) 2
  • USA, Westen 3

Für die Überprüfung unterstützte Dateitypen

Die folgenden Dateitypen werden für die Überprüfung, für die Schemaextraktion und die Klassifizierung unterstützt, sofern zutreffend:

  • Strukturierte Dateiformate, die von der Erweiterung unterstützt werden, umfassen Scannen, Schemaextraktion und Klassifizierung auf Ressourcen- und Spaltenebene: AVRO, ORC, PARQUET, CSV, JSON, PSV, SSV, TSV, TXT, XML, GZIP
  • Dokumentdateiformate, die von der Erweiterung unterstützt werden, umfassen Scannen und Klassifizierung auf Ressourcenebene: DOCM, DOCX, DOT, ODP, ODS, ODT, PDF, POT, PPS, PPSX, PPT, PPT, XLC, XLS, XLSB, XLSM, XLSX, XLT
  • Der Microsoft Purview Data Map unterstützt auch benutzerdefinierte Dateierweiterungen und benutzerdefinierte Parser.

Hinweis

Bekannte Einschränkungen:

  • Der Microsoft Purview Data Map-Scanner unterstützt nur die Schemaextraktion für die oben aufgeführten strukturierten Dateitypen.
  • Für AVRO-, ORC- und PARQUET-Dateitypen unterstützt der Scanner keine Schemaextraktion für Dateien, die komplexe Datentypen (z. B. MAP, LIST, STRUCT) enthalten.
  • Der Scanner unterstützt das Scannen snappy komprimierter PARQUET-Typen für die Schemaextraktion und -klassifizierung.
  • Bei GZIP-Dateitypen muss das GZIP einer einzelnen CSV-Datei in zugeordnet werden. Gzip-Dateien unterliegen systemspezifischen und benutzerdefinierten Klassifizierungsregeln. Derzeit wird das Scannen einer GZIP-Datei, die mehreren Dateien in zugeordnet ist, oder einem anderen Dateityp als csv nicht unterstützt.
  • Für Dateitypen mit Trennzeichen (CSV, PSV, SSV, TSV, TXT):
    • Die Datentyperkennung wird nicht unterstützt. Der Datentyp wird für alle Spalten als "Zeichenfolge" aufgeführt.
    • Wir unterstützen nur komma(','), semikolon(';'), vertical bar('|') und tab('\t') als Trennzeichen.
    • Durch Trennzeichen getrennte Dateien mit weniger als drei Zeilen können nicht als CSV-Dateien bestimmt werden, wenn sie ein benutzerdefiniertes Trennzeichen verwenden. Beispiel: Dateien mit ~-Trennzeichen und weniger als drei Zeilen können nicht als CSV-Dateien bestimmt werden.
    • Wenn ein Feld doppelte Anführungszeichen enthält, können die doppelten Anführungszeichen nur am Anfang und Ende des Felds angezeigt werden und müssen übereinstimmen. Doppelte Anführungszeichen, die in der Mitte des Felds oder am Anfang und Ende angezeigt werden, aber nicht übereinstimmen, werden als ungültige Daten erkannt, und es wird kein Schema aus der Datei analysiert. Zeilen, die eine andere Anzahl von Spalten als die Kopfzeile aufweisen, werden als Fehlerzeilen bewertet. (Anzahl der Fehlerzeilen/Anzahl der stichprobenierten Zeilen ) muss kleiner als 0,1 sein.
  • Wenn Sie bei Parquet-Dateien eine selbstgehostete Integration Runtime verwenden, müssen Sie die 64-Bit-JRE 11 (Java Runtime Environment) oder OpenJDK auf Ihrem IR-Computer installieren. Eine Installationsanleitung finden Sie im Abschnitt Java Runtime Environment unten auf der Seite .

Schemaextraktion

Derzeit beträgt die maximale Anzahl von Spalten, die auf der Registerkarte "Ressourcenschema" für Azure-Quellen, Power BI und SQL Server unterstützt werden, 800.

Geschachtelte Daten

Derzeit werden geschachtelte Daten nur für JSON-Inhalte unterstützt.

Wenn in einer Spalte geschachtelter JSON-Inhalt vorhanden ist, analysiert der Scanner für alle vom System unterstützten Dateitypen die geschachtelten JSON-Daten und zeigt sie auf der Schemaregisterkarte des Medienobjekts an.

Geschachtelte Daten oder geschachtelte Schemaanalyse werden in SQL nicht unterstützt. Eine Spalte mit geschachtelten Daten wird gemeldet und klassifiziert, und Unterdaten werden nicht analysiert.

Samplingdaten für die Klassifizierung

In Microsoft Purview Data Map Terminologie

  • L1-Scan: Extrahiert grundlegende Informationen und Metadaten wie Dateiname, Größe und vollqualifizierter Name
  • L2-Überprüfung: Extrahiert das Schema für strukturierte Dateitypen und Datenbanktabellen.
  • L3-Überprüfung: Extrahiert ggf. das Schema und unterzieht die Stichprobendatei den System- und benutzerdefinierten Klassifizierungsregeln.

Für alle strukturierten Dateiformate werden dateien im Microsoft Purview Data Map Scanner wie folgt beschrieben:

  • Bei strukturierten Dateitypen werden die ersten 128 Zeilen in jeder Spalte oder die ersten 1 MB( je nachdem, welcher Wert niedriger ist) entnommen.
  • Bei Dokumentdateiformaten werden die ersten 20 MB jeder Datei als Stichprobe verwendet.
    • Wenn eine Dokumentdatei größer als 20 MB ist, unterliegt sie keinem tiefen Scan (unterliegt der Klassifizierung). In diesem Fall erfasst Microsoft Purview nur grundlegende Metadaten wie Dateiname und vollqualifizierter Name.
  • Für tabellarische Datenquellen (SQL) werden die ersten 128 Zeilen entnommen.
  • Für Azure Cosmos DB for NoSQL werden bis zu 300 unterschiedliche Eigenschaften aus den ersten 10 Dokumenten in einem Container für das Schema gesammelt, und für jede Eigenschaft werden Werte von bis zu 128 Dokumenten oder den ersten 1 MB abgetastet.

Stichprobenerstellung für Ressourcensatzdateien

Ein Ordner oder eine Gruppe von Partitionsdateien wird als Ressourcensatz im Microsoft Purview Data Map erkannt, wenn er mit einer Systemressourcensatzrichtlinie oder einer vom Kunden definierten Ressourcensatzrichtlinie übereinstimmt. Wenn ein Ressourcensatz erkannt wird, nimmt der Scanner eine Stichprobe für jeden ordner, der darin enthalten ist. Weitere Informationen zu Ressourcensätzen finden Sie hier.

Dateisampling für Ressourcensätze nach Dateitypen:

  • Durch Trennzeichen getrennte Dateien (CSV, PSV, SSV, TSV): 1 von 100 Dateien werden in einem Ordner oder einer Gruppe von Partitionsdateien, die als "Ressourcensatz" betrachtet werden, stichprobeniert (L3-Überprüfung)
  • Data Lake-Dateitypen (Parquet, Avro, Orc): 1 in 18446744073709551615 Dateien (maximale Länge) werden in einem Ordner oder einer Gruppe von Partitionsdateien, die als "Ressourcensatz" betrachtet werden, stichprobeniert (L3-Überprüfung)
  • Andere strukturierte Dateitypen (JSON, XML, TXT): 1 von 100 Dateien werden in einem Ordner oder einer Gruppe von Partitionsdateien, die als "Ressourcensatz" betrachtet werden, stichprobeniert (L3-Scan)
  • SQL-Objekte und Azure Cosmos DB-Entitäten : Jede Datei wird L3 gescannt.
  • Dokumentdateitypen : Jede Datei wird L3 gescannt. Ressourcensatzmuster gelten nicht für diese Dateitypen.

Nächste Schritte