Erstellen von Ressourcensatzmusterregeln

Datenverarbeitungssysteme im großen Stil speichern in der Regel eine einzelne Tabelle im Speicher als mehrere Dateien. Dieses Konzept wird in Microsoft Purview mithilfe von Ressourcensätzen dargestellt. Ein Ressourcensatz ist ein einzelnes Objekt im Datenkatalog, das eine große Anzahl von Ressourcen im Speicher darstellt. Weitere Informationen finden Sie unter Grundlegendes zu Ressourcensätzen.

Beim Überprüfen eines Speicherkontos verwendet Microsoft Purview eine Reihe definierter Muster, um zu bestimmen, ob eine Gruppe von Ressourcen eine Ressourcengruppe ist. In einigen Fällen spiegelt die Ressourcensatzgruppierung von Microsoft Purview Ihren Datenbestand möglicherweise nicht genau wider. Mit Ressourcensatzmusterregeln können Sie anpassen oder überschreiben, wie Microsoft Purview erkennt, welche Ressourcen als Ressourcensätze gruppiert werden und wie sie im Katalog angezeigt werden.

Musterregeln werden derzeit in den folgenden Quelltypen unterstützt:

  • Azure Data Lake Storage Gen2
  • Azure Blob Storage
  • Azure Files
  • Amazon S3

Der Erweiterte Ressourcensatz-Featuresatz muss aktiviert sein, um Musterregeln für Ressourcensätze zu erstellen. Weitere Informationen finden Sie unter Grundlegendes zu erweiterten Ressourcensätzen.

Erstellen einer Musterregel für Ressourcensätze

Führen Sie die folgenden Schritte aus, um eine neue Ressourcensatzmusterregel zu erstellen:

  1. Wechseln Sie zur Data Map. Wählen Sie im Menü unter der Überschrift Quellverwaltung die Option Musterregeln aus. Wählen Sie + Neu aus, um einen neuen Regelsatz zu erstellen.

    Erstellen einer neuen Musterregel für Ressourcensätze

  2. Geben Sie den Bereich Ihrer Ressourcensatzmusterregel ein. Wählen Sie ihren Speicherkontotyp und den Namen des Speicherkontos aus, für das Sie einen Regelsatz erstellen möchten. Jeder Satz von Regeln wird relativ zu einem Ordnerpfadbereich angewendet, der im Feld Ordnerpfad angegeben ist.

    Erstellen von Musterregelkonfigurationen für Ressourcensätze

  3. Wählen Sie + Neue Regel aus, um eine Regel für einen Konfigurationsbereich einzugeben.

  4. Geben Sie in die folgenden Felder ein, um eine Regel zu erstellen:

    1. Regelname: Der Name der Konfigurationsregel. Dieses Feld hat keine Auswirkungen auf die Ressourcen, auf die die Regel angewendet wird.

    2. Qualifizierter Name: Ein qualifizierter Pfad, der eine Kombination aus Text, dynamischen Ersetzungen und statischen Ersetzungen verwendet, um Ressourcen mit der Konfigurationsregel abzugleichen. Dieser Pfad ist relativ zum Bereich der Konfigurationsregel. Ausführliche Anweisungen zum Angeben qualifizierter Namen finden Sie weiter unten im Syntaxabschnitt .

    3. Anzeigename: Der Anzeigename des Medienobjekts. Dieses Feld ist optional. Verwenden Sie Nur-Text- und statische Ersetzungsmodule, um die Anzeige eines Medienobjekts im Katalog anzupassen. Ausführlichere Anweisungen finden Sie weiter unten im Syntaxabschnitt .

    4. Gruppierung nicht als Ressourcensatz: Wenn diese Option aktiviert ist, wird die übereinstimmene Ressource nicht in einem Ressourcensatz gruppiert.

      Erstellen Sie eine neue Konfigurationsregel.

  5. Speichern Sie die Regel, indem Sie Hinzufügen auswählen.

Hinweis

Nachdem eine Musterregel erstellt wurde, wenden alle neuen Überprüfungen die Regel während der Erfassung an. Vorhandene Ressourcen im Datenkatalog werden über einen Hintergrundprozess aktualisiert, der einige Stunden dauern kann.

Musterregelsyntax

Verwenden Sie beim Erstellen von Ressourcensatzmusterregeln die folgende Syntax, um anzugeben, für welche Ressourcenregeln gelten.

Dynamische Ersetzungen (einfache Klammern)

Einzelne Klammern werden als dynamische Ersetzungsmodule in Musterregeln verwendet. Geben Sie einen dynamischen Ersetzungsmodus im qualifizierten Namen im Format {<replacerName:<replacerType>}an. Wenn eine Übereinstimmung besteht, werden dynamische Ersetzungsmodule als Gruppierungsbedingung verwendet, die angibt, dass Ressourcen als Ressourcensatz dargestellt werden sollen. Wenn die Ressourcen in einem Ressourcensatz gruppiert sind, enthält {replacerName} der qualifizierte Pfad der Ressourcengruppe den Speicherort, an dem der Ersetzungstyp angegeben wurde.

Wenn z. B. zwei Ressourcen folder1/file-1.csv mit der Regel {folder:string}/file-{NUM:int}.csvübereinstimmen, wäre der Ressourcensatz eine einzelne Entität {folder}/file-{NUM}.csvfolder2/file-2.csv .

Sonderfall: Dynamische Ersetzungen, wenn sie nicht in einer Ressourcengruppe gruppiert werden

Wenn Nicht als Ressourcensatz gruppieren für eine Musterregel aktiviert ist, ist der Ersetzungsname ein optionales Feld. {:<replacerType>} ist eine gültige Syntax. Würde z. B file-{:int}.csv . erfolgreich für file-1.csv und file-2.csv übereinstimmen und zwei verschiedene Ressourcen anstelle eines Ressourcensatzes erstellen.

Statische Ersetzungen (doppelte Klammern)

Doppelte Klammern werden als statische Ersetzungen im qualifizierten Namen einer Musterregel verwendet. Geben Sie einen statischen Ersetzungsmodus im qualifizierten Namen im Format {{<replacerName>:<replacerType>}}an. Wenn eine Übereinstimmung besteht, erstellt jeder Satz eindeutiger statischer Ersetzungswerte unterschiedliche Ressourcensatzgruppierungen.

Wenn z. B. zwei Ressourcen folder1/file-1.csv und folder2/file-2.csv mit der Regel {{folder:string}}/file-{NUM:int}.csvübereinstimmen, werden zwei Ressourcensätze und folder2/file-{NUM}.csverstelltfolder1/file-{NUM}.csv.

Statische Ersetzungen können verwendet werden, um den Anzeigenamen eines Medienobjekts anzugeben, das mit einer Musterregel übereinstimmt. Wenn Im {{<replacerName>}} Anzeigenamen einer Regel verwendet wird, wird der übereinstimmene Wert im Ressourcennamen verwendet.

Verfügbare Ersatztypen

Im Folgenden finden Sie die verfügbaren Typen, die in statischen und dynamischen Ersetzungsvorgängen verwendet werden können:

Typ Structure
string Eine Reihe von einem oder mehreren Unicode-Zeichen, einschließlich Trennzeichen wie Leerzeichen.
int Eine Reihe von 1 oder mehr 0-9 ASCII-Zeichen kann mit dem Präfix 0 (z. B. 0001) versehen werden.
GUID Eine Reihe von 32 oder 8-4-4-4-4-12 Zeichenfolgendarstellung einer UUID, wie in RFC 4122 definiert.
date Eine Reihe von 6 oder 8 0-9 ASCII-Zeichen mit optionalen Trennzeichen: yyyymmdd, yyyy-mm-tt, yymmdd, yyy-mm-tt, angegeben in RFC 3339.
Uhrzeit Eine Reihe von 4 oder 6 0-9 ASCII-Zeichen mit optionalen Trennzeichen: HHmm, HH:mm, HHmmss, HH:mm:ss angegeben in RFC 3339.
Timestamp Eine Reihe von 12 oder 14 0-9 ASCII-Zeichen mit optionalen Trennzeichen: yyyy-mm-ttTHH:mm, yyyyymmddhhmm, yyyyy-mm-ddTHH:mm:ss, yyyyymmddHHHmmsss, angegeben in RFC 3339.
Boolescher Wert Kann "true" oder "false" enthalten, wobei die Groß-/Kleinschreibung nicht beachtet wird.
number Eine Reihe von 0 oder mehr 0-9 ASCII-Zeichen, kann 0 präfixiert sein (z. B. 0001), gefolgt von optional einem Punkt "." und einer Reihe von 1 oder mehr 0-9 ASCII-Zeichen. Es kann 0 postfixed sein (z. B. .100).
Hex Eine Reihe von einem oder mehreren ASCII-Zeichen aus dem Satz 0-1 und A-F. Der Wert kann mit dem Präfix 0 versehen werden.
Gebietsschema Eine Zeichenfolge, die der in RFC 5646 angegebenen Syntax entspricht.

Reihenfolge der angewendeten Musterregeln für Ressourcensätze

Im Folgenden finden Sie die Reihenfolge der Vorgänge zum Anwenden von Musterregeln:

  1. Spezifischere Bereiche haben Priorität, wenn ein Medienobjekt zwei Regeln entspricht. Regeln in einem Bereich container/folder gelten beispielsweise vor Regeln im Bereich container.

  2. Reihenfolge der Regeln innerhalb eines bestimmten Bereichs. Dies kann in der Benutzeroberfläche bearbeitet werden.

  3. Wenn ein Medienobjekt keiner angegebenen Regel entspricht, gilt die Standardmäßige Ressourcensatzheuristik.

Beispiele

Beispiel 1

SAP-Datenextraktion in vollständige und Deltalasten

Eingaben

Dateien:

  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/13/saptable_customer_20200101_20200102_02.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/delta/2020/01/15/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_01.txt
  • https://myazureblob.blob.core.windows.net/bar/customer/full/2020/01/17/saptable_customer_20200101_20200102_02.txt

Musterregel

Umfang:https://myazureblob.blob.core.windows.net/bar/

Anzeigename: "Externer Kunde"

Qualifizierter Name:customer/{extract:string}/{year:int}/{month:int}/{day:int}/saptable_customer_{date_from:date}_{date_to:time}_{sequence:int}.txt

Ressourcensatz: true

Ausgabe

Ein Ressourcensatzobjekt

Anzeigename: Externer Kunde

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/customer/{extract}/{year}/{month}/{day}/saptable_customer_{date_from}_{date_to}_{sequence}.txt

Beispiel 2

IoT-Daten im Avro-Format

Eingaben

Dateien:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Musterregeln

Umfang:https://myazureblob.blob.core.windows.net/bar/

Regel 1

Anzeigename: "machine-89"

Qualifizierter Name:raw/machinename-89/{date:date}/{time:time}-{id:int}.avro

Ressourcensatz: true

Regel 2

Anzeigename: "machine-90"

Qualifizierter Name:raw/machinename-90/{date:date}/{time:time}-{id:int}.avro

Ressourcensatz: true

Ausgaben

Zwei Ressourcensätze

Ressourcensatz 1

Anzeigename: computer-89

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Ressourcensatz 2

Anzeigename: computer-90

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Beispiel 3

IoT-Daten im Avro-Format

Eingaben

Dateien:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.netbar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Musterregel

Umfang:https://myazureblob.blob.core.windows.net/bar/

Anzeigename: 'Machine-{{machineid}}'

Qualifizierter Name:raw/machinename-{{machineid:int}}/{date:date}/{time:time}-{id:int}.avro

Ressourcensatz: true

Ausgaben

Ressourcensatz 1

Anzeigename: computer-89

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/{date}/{time}-{id}.avro

Ressourcensatz 2

Anzeigename: computer-90

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/{date}/{time}-{id}.avro

Beispiel 4

Gruppieren Sie sich nicht in Ressourcensätzen.

Eingaben

Dateien:

  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro
  • https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Musterregel

Umfang:https://myazureblob.blob.core.windows.net/bar/

Anzeigename:Machine-{{machineid}}

Qualifizierter Name:raw/machinename-{{machineid:int}}/{{:date}}/{{:time}}-{{:int}}.avro

Ressourcensatz: false

Ausgaben

Vier einzelne Ressourcen

Medienobjekt 1

Anzeigename: computer-89

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-001.avro

Medienobjekt 2

Anzeigename: computer-89

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/01-01-2020/22:33:22-002.avro

Medienobjekt 3

Anzeigename: computer-89

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-89/02-01-2020/22:33:22-001.avro

Medienobjekt 4

Anzeigename: computer-90

Qualifizierter Name:https://myazureblob.blob.core.windows.net/bar/raw/machinename-90/01-01-2020/22:33:22-001.avro

Nächste Schritte

Beginnen Sie mit der Registrierung und Überprüfung eines Azure Data Lake Gen2-Speicherkontos.