Informationen zu Typen vertraulicher Informationen, die auf genauer Datenübereinstimmung basieren

Artikel
12/12/2023

Vertrauliche Informationstypen (SITs ) werden verwendet, um vertrauliche Daten zu identifizieren, sodass Sie verhindern können, dass sie versehentlich oder unangemessen freigegeben werden. Sie werden auch verwendet, um relevante Daten in eDiscovery zu finden und Governanceaktionen auf bestimmte Arten von Informationen anzuwenden. Sie definieren eine benutzerdefinierte SIT basierend auf:

Durch Muster
Schlüsselwort (keyword) Nachweise wie Mitarbeiter, Sozialversicherungsnummer oder ID
Ähnliche Zeichen als Nachweis in einem bestimmten Muster
Konfidenzniveaus

Aber was ist, wenn Sie eine benutzerdefinierte SIT verwenden möchten, die genaue oder fast genaue Datenwerte verwendet, anstatt einen, der Übereinstimmungen basierend auf generischen Mustern findet? Mit der auf Exact Data Match (EDM) basierenden Klassifizierung können Sie einen benutzerdefinierten vertraulichen Informationstyp erstellen, der für Folgendes konzipiert ist:

dynamisch und leicht zu aktualisieren
führen zu weniger falsch positiven Ergebnissen
arbeitet mit strukturierten vertraulichen Daten
Vertrauliche Informationen sicherer verarbeiten und nicht für andere Personen freigeben, einschließlich Microsoft
mit verschiedenen Microsoft Cloud Services verwendbar

Tipp

Wenn Sie kein E5-Kunde sind, verwenden Sie die 90-tägige Testversion von Microsoft Purview-Lösungen, um zu erfahren, wie zusätzliche Purview-Funktionen Ihre Organisation bei der Verwaltung von Datensicherheits- und Complianceanforderungen unterstützen können. Starten Sie jetzt im Testhub für Microsoft Purview-Complianceportal. Erfahren Sie mehr über Anmelde- und Testbedingungen.

Mit der EDM-basierten Klassifizierung können Sie benutzerdefinierte SITs erstellen, die auf genaue Werte in einer Datenbank mit vertraulichen Informationen verweisen. Die Datenbank kann täglich aktualisiert werden und bis zu 100 Millionen Datenzeilen enthalten. Wenn Also Mitarbeiter, Patienten und Kunden kommen und gehen und sich Datensätze ändern, bleiben Ihre benutzerdefinierten Typen vertraulicher Informationen aktuell und anwendbar. Außerdem können Sie die EDM-basierte Klassifizierung mit Richtlinien verwenden, z. B. Microsoft Purview Data Loss Prevention- oder Microsoft Cloud App Security-Dateirichtlinien.

Das folgende Diagramm zeigt die grundlegenden Funktionsweisen der EDM-Klassifizierung:

EDM-basierte Klassifizierung.

Hinweis

Microsoft Purview Information Protection unterstützt die folgenden Sprachen, die Doppelbytezeichensätze verwenden:

Chinesisch (vereinfacht)
Chinesisch (traditionell)
Koreanisch
Japanisch

Diese Unterstützung ist für vertrauliche Informationstypen verfügbar. Weitere Informationen finden Sie unter Information Protection-Unterstützung für Doppelbytezeichensätze: Versionshinweise (Vorschau).

Was ist anders in einer EDM SIT

Wenn Sie mit EDM-SITs arbeiten, ist es hilfreich, einige Konzepte zu verstehen, die für sie einzigartig sind.

Schema

Ein Schema ist eine XML-Datei. Microsoft Purview verwendet das Schema, um zu bestimmen, ob Ihre Daten Zeichenfolgen enthalten, die mit denen übereinstimmen, für die Ihre vertraulichen Informationstypen konzipiert sind.

Die XML-Schemadatei definiert Folgendes:

Der Name des Schemas, der später als Datenspeicher bezeichnet wird.
Die Feldnamen, die in der Quelltabelle vertraulicher Informationen enthalten sind. Es gibt eine 1:1-Zuordnung von Schemafeldnamen zu den Spaltennamen in der Quelltabelle vertraulicher Informationen.
Welche bestätigenden Beweisfelder erfordern den Übereinstimmungsmodus mit mehreren Token.
Welche Datenfelder durchsuchbar sind.
Gibt an, ob konfigurierbare Übereinstimmungen für jedes Feld unterstützt werden. Eine konfigurierbare Übereinstimmung ist eine mit Parametern, die eine Suche ändern, z. B. das Ignorieren von Trennzeichen und Groß-/Kleinschreibung in durchsuchten Werten.

Quelltabelle vertraulicher Informationen

Die Quelltabelle vertraulicher Informationen enthält die Werte, nach denen die EDM SIT sucht. Die Tabelle besteht aus Spalten und Zeilen. Die Spaltenüberschriften sind die Feldnamen, die Zeilen sind Instanzen von Elementen, und jede Zelle in einer Zeile enthält die Werte für dieses Element instance für dieses Feld.

Hier sehen Sie ein einfaches Beispiel für eine Quelltabelle vertraulicher Informationen.

Vorname	Nachname	Date of Birth
Jesaja	Langer	05-05-1960
Ana	Bowman	11-24-1971
Oscar	Ward	02-12-1998

Regelpaket

Jeder vertrauliche Informationstyp verfügt über ein Regelpaket. Sie verwenden das Regelpaket in einer EDM SIT, um die verschiedenen Komponenten Ihrer EDM SIT zu definieren. Die folgende Tabelle enthält eine Beschreibung der einzelnen Komponenten.

Komponente	Beschreibung
Vergleich	Gibt das primäre Element (Datenfeld) an, das bei der genauen Suche verwendet werden soll. Dabei kann es sich um einen regulären Ausdruck mit oder ohne Prüfsummenüberprüfung, eine Schlüsselwort (keyword) Liste, ein Schlüsselwort (keyword) Wörterbuch oder eine Funktion handeln.
Klassifizierung	Gibt die Übereinstimmung des Typs vertraulicher Informationen an, die eine EDM-Suche auslöst.
Unterstützende Elemente	Elemente, die, wenn sie gefunden werden, Beweise liefern, die dazu beiträgt, das Vertrauen der Übereinstimmung zu erhöhen. Beispielsweise das Vorkommen eines Nachnamens in unmittelbarer Nähe zu einer tatsächlichen Sozialversicherungsnummer. Ein unterstützendes Element kann ein regulärer Ausdruck mit oder ohne Prüfsummenüberprüfung, eine Schlüsselwort (keyword) Liste, ein Schlüsselwort (keyword) Wörterbuch oder eine Übereinstimmung mit einer oder mehreren Tokenzeichenfolgen sein.
Zuverlässigkeitsstufe (Hoch, Mittel, Niedrig)	Gibt an, wie viele unterstützende Beweise zusätzlich zum primären Element erkannt werden. Je mehr unterstützende Beweise ein Element enthält, desto höher ist die Zuverlässigkeit, dass ein übereinstimmendes Element die vertraulichen Informationen enthält, nach denen Sie suchen. Weitere Informationen zu Konfidenzstufen finden Sie unter Grundlegende Teile eines Vertraulichen Informationstyps.
Näherung	Die Anzahl der Zeichen zwischen dem primären und dem unterstützenden Element.

Sie stellen Ihr eigenes Schema und Ihre eigenen Daten zur Verfügung.

Microsoft Purview enthält viele integrierte SITs , die vordefiniert sind. Diese SITs enthalten Schemas, REGEX-Muster, Schlüsselwörter und Konfidenzstufen. Bei EDM-SITs sind Sie jedoch für die Definition des Schemas sowie der primären und sekundären Felder verantwortlich, die vertrauliche Elemente identifizieren. Da die Schema- und primären und sekundären Datenwerte alle sehr vertraulich sind, verschlüsseln Sie sie über eine Hashfunktion , die einen zufällig generierten oder selbst bereitgestellten Salt-Wert enthält. Nur die Hashwerte werden in den Dienst hochgeladen, sodass Ihre vertraulichen Daten niemals geöffnet sind.

Primäre und sekundäre Unterstützungselemente

Wenn Sie eine EDM SIT erstellen, definieren Sie ein primäres Elementfeld im Regelpaket. EDM durchsucht dann ihren gesamten Inhalt nach dem primären Element. Damit EDM sie erkennen kann, müssen primäre Elemente über eine vorhandene SIT auffindbar sein.

Hinweis

Eine vollständige Liste der verfügbaren SITs finden Sie unter Entitätsdefinitionen für vertrauliche Informationen.

Sie müssen eine integrierte SIT finden, die die vertraulichen Informationen erkennt, die Von EDM SIT erkannt werden sollen. Wenn Ihr EDM SIT-Schema beispielsweise die US-Sozialversicherungsnummer als primäres Element aufweist, würden Sie es beim Erstellen Ihres EDM-Schemas der US-Sozialversicherungsnummer (SSN) SIT zugeordnet. Primäre Elemente müssen einem definierten Muster folgen, um erkannt zu werden.

Wenn das primäre Element in einem gescannten Element gefunden wird, sucht EDM nach sekundären Elementen (auch als unterstützende Elemente bezeichnet). Im Gegensatz zu primären Elementen haben sekundäre Elemente die Möglichkeit, einem Muster zu folgen. Wenn sekundäre Elemente mehrere Token enthalten, müssen diese Elemente entweder einer SIT zugeordnet werden, die diesen Inhalt erkennen kann, oder die für den Abgleich mit mehreren Token konfiguriert werden kann. In allen Fällen müssen sich sekundäre Elemente in einer bestimmten Nähe zum primären Element befinden, damit eine Übereinstimmung erkannt wird.

Funktionsweise des Abgleichs

EDM vergleicht Zeichenfolgen in Ihren Dokumenten und E-Mails mit Werten in der Quelltabelle vertraulicher Informationen. Anhand dieses Vergleichs wird ermittelt, ob die Werte im gescannten Inhalt in der Tabelle vorhanden sind. Die Bestimmung erfolgt durch vergleicht unidirektionale kryptografische Hashes.

Tipp

Sie können sowohl EDM-SITs als auch die vordefinierten SITs, auf denen sie basieren, zusammen in DLP-Regeln verwenden, um die Erkennung vertraulicher Daten zu verbessern. Verwenden Sie die EDM SIT mit höheren Konfidenzstufen und die vordefinierte SIT mit niedrigeren Konfidenzstufen. Verwenden Sie beispielsweise eine EDM SIT, die nach Sozialversicherungsnummer und anderen unterstützenden Daten mit strengen Anforderungen und hoher Zuverlässigkeit sucht. Wenn für Übereinstimmungen mit hoher Zuverlässigkeit konfiguriert ist, generiert EDM eine DLP-Übereinstimmung, wenn nur wenige Instanzen erkannt werden. Um eine DLP-Übereinstimmung auszulösen, wenn eine größere Anzahl von Vorkommen erkannt wird, verwenden Sie eine integrierte SIT, z . B. die US-Sozialversicherungsnummer.

Funktionsweise von unterstützenden Elementen mit EDM

Wie in What's different in an EDM SIT erläutert, sind unterstützende Elemente Elemente, die, wenn sie gefunden werden, Beweise liefern, die dazu beiträgt, das Vertrauen der Übereinstimmung zu erhöhen.

Mit Unterstützung für EDM-SITs können Sie nach unterstützenden Elementen suchen und erkennen, die aus mehreren Feldern bestehen. Unterstützende Elementabgleiche können aus Schlüsselwort (keyword) Listen, Schlüsselwort (keyword) Wörterbüchern, einzelnen alphanumerischen Zeichenfolgen oder Zeichenfolgen mit mehreren Token bestehen.

Sehen wir uns ein Beispiel an. Gehen Sie davon aus, dass Sie US-Sozialversicherungsnummern ermitteln möchten. Um die Übereinstimmungssicherheit zu erhöhen, enthalten first nameIhre unterstützenden Elemente , last nameund date of birth (DoB). Ihre Quelltabelle sieht also in etwa wie folgt aus:

SSN	FirstName	LastName	Dob
987-65-4320	Jesaja	Langer	05-05-1960
078-05-1120	Ana	Bowman	11-24-1971
219-09-9999	Oscar	Ward	02-12-1998

Wenn Sie nach übereinstimmenden unterstützenden Elementen in einer geschützten Datei suchen, sucht Ihr EDM SIT nach jedem unterstützenden Element (einzeln und in Kombination), sobald das primäre Element erkannt wurde.

Für instance, sagen Sie, dass die erste Sozialversicherungsnummer erkannt wird. Die Genaue Datenübereinstimmungsfunktion sucht als Nächstes nach Kombinationen von unterstützenden Elementen in allen Spalten in Ihrer Quelltabelle:

Jesaja
Langer
05-05-1960
Isaiah Langer
Jesaja 05-05-1960
Langer 05-05-1960
Jesaja Langer 05-05-1960

Abgleich mit mehreren Token

Der Abgleich mit mehreren Token ist so konzipiert, dass er verwendet wird, wenn ihr bestätigendes Beweisfeld Werte mit mehreren Token enthält, aber das Abgleichen dieser Werte mit einem SIT nicht einfach ist. Für instance, wenn Sie über ein Address Feld verfügen, das Werte wie 1 Microsoft Way, Redmond, WA oder 123 Main Street, New York, NYenthält.

Dieses Feature ermöglicht es EDM, die Hashes aufeinanderfolgender Wörter im Inhalt mit den Hashes der Felder mit mehreren Token in Ihrer Datenquelle zu vergleichen. Wenn sie identisch sind, erzeugt EDM eine Übereinstimmung. Auf diese Weise kann EDM Felder mit mehreren Token erkennen, z. B. Namen, Adressen, Medizinische Beschwerden oder andere bestätigende Beweisfelder, die mehr als ein Wort enthalten können, sofern sie in Ihrem EDM-Schema als mehrere Token gekennzeichnet sind.

Wenn Sie beispielsweise den Abgleich mit mehreren Token als Übereinstimmungsoption auswählen, erhalten Sie zwei zusätzliche Vorteile:

Ihre Richtlinien erkennen Inhalte, die mit mehreren Feldern in den Spalten in Der Quelltabelle übereinstimmen.
Die Quelltabelle kann Felder mit Zeichenfolgenwerten enthalten, die aus einer vorkonfigurierten Anzahl von Wörtern bestehen. Die folgende Tabelle enthält eine Beispielquelltabelle:

SSN	Name	Straße
987-65-4320	Isaiah Langer	1432 Lincoln Road
078-05-1120	Ana Bowman	8250 First Street
219-09-9999	Oscar Ward	424 205th Avenue

Beim Abgleich mit mehreren Token werden die Felder Name und Street Address sowohl als unabhängige unterstützende Elementzeichenfolgen als auch in Kombination als einzelne Felder abgeglichen. Wenn also als Zeichenfolgen mit mehreren Token als unterstützende Elemente für die Sozialversicherungsnummer 987-65-4320 abgeglichen werden, sind die Übereinstimmungen:

Isaiah Langer
1432 Lincoln Road

Wenn eine Übereinstimmung in Kombination erfolgt, sieht die Übereinstimmung wie folgt aus:

Isaiah Langer + 1432 Lincoln Road

Der Abgleich mit mehreren Token wird auch für Doppelbytezeichensätze unterstützt, die in der Regel keine Leerzeichen zum Trennen von Wörtern verwenden.

Dienste, die EDM unterstützt

Dienst	Speicherorte
Verhinderung von Datenverlust in Microsoft Purview	– SharePoint – OneDrive – Teams Chat – Exchange Online – Geräte
Microsoft Defender for Cloud Apps	– SharePoint – OneDrive
Automatische Bezeichnung (dienstseitig)	– SharePoint – OneDrive – Exchange Online
Automatische Bezeichnung (clientseitig)	– Word – Excel – PowerPoint – Exchange-Desktopclients
Kundenseitig verwalteter Schlüssel	– SharePoint – OneDrive – Teams Chat – Exchange Online – Word – Excel – PowerPoint – Exchange-Desktopclients – Geräte
eDiscovery	– SharePoint – OneDrive – Teams Chat – Exchange Online – Word – Excel – PowerPoint – Exchange-Desktopclients
Insider-Risikomanagement	– SharePoint – OneDrive – Teams Chat – Exchange Online – Word – Excel – PowerPoint – Exchange-Desktopclients

Siehe auch

Erste Schritte mit Typen vertraulicher Informationen, die auf genauer Datenübereinstimmung basieren