Skapa schemat för exakta datamatchningsbaserade typer av känslig information
Du kan skapa schemat och EDM SIT med hjälp av guiden Använd den exakta datatypen och schema och mönstertyp för känslig information eller manuellt. Du kan också kombinera båda med en metod för att skapa schemat och senare redigera det med den andra metoden.
Om du inte är bekant med EDM-baserade SITS eller deras implementering bör du bekanta dig med:
- Mer information om typer av känslig information
- Läs om exakta datamatchningsbaserade typer av känslig information
- Kom igång med exakta datamatchningsbaserade typer av känslig information
Ett enda EDM-schema kan användas i flera typer av känslig information som använder samma känsliga datatabell. Du kan skapa upp till 10 olika EDM-scheman i en Microsoft 365 klientorganisation.
Arbeta med specifika typer av data
Av prestandaskäl är det viktigt att du använder mönster som minimerar antalet onödiga matchningar. Du kan till exempel använda en typ av känslig information som baseras på det reguljära uttrycket.
\b\w*\b
Det här matchar varje enskilt ord eller nummer i ett dokument eller e-postmeddelande. Detta skulle göra att tjänsten överbelastas med matchningar och missar att upptäcka sanna matchningar. Med mer exakta mönster undviker du den här situationen. Här är några rekommendationer för att identifiera rätt konfiguration för vissa vanliga typer av data.
E-postadresser: E-postadresser kan vara lätta att identifiera, men eftersom de är så vanliga i innehåll kan de orsaka betydande belastning i systemet om de används som ett primärt fält. Använd dem bara som sekundära bevis. Om de måste användas som primära bevis, försök att definiera en anpassad typ av känslig information From To som använder logik för att utesluta användning som eller fält i e-postmeddelanden, och för att utesluta dem med ditt företags e-postadress för att minska antalet onödiga strängar som måste matchas.
Telefon tal: Telefon kan ha många olika format, till exempel landsprefix, riktnummer och avgränsare. För att minska det falska negativa talet och samtidigt hålla inläsningen på ett minimum bör du bara använda dem som sekundära element, utesluta alla troliga avgränsare, t.ex. parenteser och streck, och inkludera bara den del som alltid finns i telefonnumret i din tabell med känsliga data.
Personens namn: Använd inte personens namn som primära element om du använder en typ av känslig information som baseras på ett reguljärt uttryck som klassificeringselement för denna EDM-typ, eftersom de är svåra att skilja från vanliga ord.
Om du måste använda ett primärt element som är svårt att identifiera med ett visst mönster, t.ex. ett projektkodnamn som kan generera många matchningar som ska bearbetas, ser du till att du använder nyckelord i den typ av känslig information som du använder som klassificeringselement för EDM-typen. Om du till exempel använder projektkodsnamn som kan vara vanliga ord, project kan du använda ordet som obligatorisk ytterligare bevis i nära närheten av projektnamnet det reguljära uttrycksbaserade mönstret i den känsliga typ som används som klassificeringselement för din EDM-typ. Du kan också överväga att använda en känslig typ som baseras på en vanlig ordlista som klassificeringselement för din EDM SIT.
När du försöker matcha numeriska strängar anger du de tillåtna intervallen för tal, t.ex. antal siffror eller startsiffrorna, om detta är känt. Om du behöver matcha ett relativt flexibelt antal tal kan du använda nyckelord i basen SIT för att minska antalet matchningar. Om du till exempel försöker matcha kontonummer som består av 7-11 siffror, accountlägger du till orden , , customer``acct. till SIT som nödvändig ytterligare bevis. Detta minskar sannolikheten för att onödiga matchningar kan orsaka att EDM överträffar gränserna för matchningar.
Om ett fält som du behöver använda som primärt element följer ett enkelt mönster som kan orsaka många matchningar och du inte kan lägga till förekomsten av nyckelord som ytterligare bevis för typen av känslig information, kan du alternativt kräva ett minsta antal förekomster av det mönstret. Du kan till exempel använda en anpassad typ av känslig information som definierats på följande sätt för att identifiera minst 29 andra femsiffriga tal som omger ett möjligt femsiffrigt tal för att matcha mot EDM:
<Entity id="98703510-18b3-43d4-961f-15317594beb7"
patternsProximity="300"
recommendedConfidence="85"
relaxProximity="false">
<Pattern confidenceLevel="85"
proximity="300">
<IdMatch idRef="MRN"/>
<Match idRef="30 AccountNrs"
minCount="30"
proximity="3000"
uniqueResults="true"/>
</Pattern>
</Entity>
<Regex id="30 AccountNrs">\d{5}</Regex>
I vissa fall kan du behöva identifiera vissa konto- eller registeridentifieringsnummer som av historiska skäl inte följer ett standardiserat mönster. Kan till exempel Medical Record Numbers bestå av många olika permutationer av bokstäver och siffror inom samma organisation. Även om det i början kan vara svårt att identifiera ett mönster kan du ofta med närmare kontroll begränsa ett mönster som beskriver alla giltiga värden utan att orsaka ett alltför stort antal ogiltiga matchningar. Det kan till exempel upptäckas att "alla MRN är minst sju tecken långa, har minst två siffror i sig och om det finns några bokstäver i dem börjar de med ett". Om du skapar ett reguljärt uttryck baserat på sådana villkor bör du minimera onödiga matchningar samtidigt som alla önskade värden tas med, och ytterligare analys kan tillåta ökad precision genom att definiera separata mönster som beskriver olika format.
Använd Exact Data Match-schema och guiden för typ av känslig information
Du kan använda den här guiden för att förenkla processen att skapa schemafiler.
Förutsättningar
- Utför stegen i Exportera källdata för att få en exakt matchning av data i den baserade typen av känslig information.
Använda Exact Data Match-schemat och mönsterguiden för typ av känslig information
I Microsoft 365 för klientorganisationen går du till DataklassificeringExakta > data matcharEDM-scheman > .
Välj Skapa EDM-schema för att öppna schemaguidens utfällbara konfiguration.

Fyll i Namn och Beskrivning.
Välj Ignorera avgränsare och skiljetecken för alla schemafält om du vill ha det beteendet för hela schemat. Mer information om hur du konfigurerar EDM för att ignorera fall eller avgränsare finns i Använda fälten caseInsensitive och ignoredDelimiters för mer information om den här funktionen.
Fyll i önskade värden i schemafältet och #1 lägg till fler fält efter behov. Varje schemafält måste vara identiskt med kolumnrubrikerna i källfilen för känslig information.
Om du vill anger du värden per fält för:
- Fältet är sökbart
- Fält är case-insensitive
- Välj avgränsare och skiljetecken som ska ignoreras för det här fältet
- Ange egna avgränsare och skiljetecken för det här fältet
Viktigt
Minst ett men inte fler än fem av schemafälten måste anges som sökbara.
Välj Spara. Schemat visas nu och kan användas.
Viktigt
Om du vill ta bort ett schema som redan är associerat med en EDM-känslig informationstyp, måste du först ta bort den EDM-känsliga informationstypen. Sedan kan du ta bort schemat. Om du tar bort ett schema med en datalager kopplad till det tas även datakällan bort inom 24 timmar.
Export av EDM-schemafilen i XML-format
Om du skapade EDM-schemat i guiden EDM-schema måste du exportera schemafilen för EDM i XML-format. Du behöver den i fasen Hash och ladda upp tabellen för känslig informationskälla för exakt matchning av känsliga informationstyper .
Ansluta till Säkerhets- och efterlevnadscenter i PowerShell.
Exportera EDM-schemafilen med följande syntax:
$Schema = Get-DlpEdmSchema -Identity "[your EDM Schema name]" Set-Content -Path ".\Schemafile.xml" -Value $Schema.EdmSchemaXMLSpara filen för senare användning.
Skapa exakta schema för datamatchning manuellt och ladda upp
I schemafilen konfigurerar du en post för varje kolumn i tabellen för känslig informationskälla med syntaxen:
<Field name="FieldName" searchable="true/false" caseInsensitive="true/false" ignoredDelimiters="delimiter characters" />
Använda fälten caseInsensitive och ignoredDelimiters
I följande XML-exempel används fälten caseInsensitive och ignoredDelimiters .
När du tar med det caseInsensitive-fält true som har värdet i schemadefinitionen exkluderar EDM inte ett objekt baserat på skillnader i ärendet. Till exempel ser EDM värdena FOO-1234 och fOo-1234 som identiska för PatientID fältet.
När du tar med fältet ignoredDelimiters med tecken som stöds ignorerar EDM dessa tecken. Därför ser EDM värdena FOO-1234 och FOO#1234 som identiska för PatienID fältet.
I det här exemplet, caseInsensitive ignoredDelimiters där både och används, ser EDM FOO-1234 och fOo#1234 som identiska och klassificerar objektet som en typ av patientinformationskänslig information.
Båda dessa parametrar används per fält.
Viktigt
Om du konfigurerar blanksteg som ska ignoreras, gäller detta bara för primära fältkolumner och för vilka en typ av känslig information som kan identifiera flerordssträngar har definierats. Annars görs jämförelsen mot varje enskilt ord i innehållet som analyseras.
Flaggan ignoredDelimiters har stöd för alla icke-alfanumeriska tecken. Här är några exempel:
- .
- -
- /
- _
- *
- ^
- #
- !
- ?
- [
- ]
- {
- }
- \
- ~
- ;
Flaggan ignoredDelimiters stöder inte:
- tecknen 0–9
- A–Z
- a–z
- "
- ,
Viktigt
När du definierar typen EDM-känslig information påverkar ignoreraDelimiters inte hur typen Klassificeringskänslig information som associeras med det primära elementet i ett EDM-mönster identifierar innehåll i ett objekt. Om du konfigurerar ignoreDelimiters för ett sökbart fält måste du se till att den typ av känslig information som används för ett primärt element baserat på det fältet väljer strängar både med och utan dessa tecken.
Antalet kolumner i tabellen med känslig informationskälla och antalet fält i schemat måste matcha, ordning spelar ingen roll.
Definiera schemat i XML-format (ungefär som i exemplet nedan). Namnge den här schemafilenedm.xml och konfigurera den så att det finns en rad med syntax för varje kolumn i källtabellen för känslig information:
\<Field name="" searchable=""/\>.- Ange kolumnnamn som fältnamnsvärde.
- Använd searchable="true" för de fält som du vill ska vara sökbara och primära fält upp till högst 5 fält. Minst ett fält måste vara sökbart.
I följande exempel definierar XML-filen schemat för en databas för patientjournaler varav fem fält har angetts som sökbara: PatientID, MRN, SSN, Phone och DOB.
(Du kan kopiera, ändra och använda vårt exempel.)
<EdmSchema xmlns="http://schemas.microsoft.com/office/2018/edm"> <DataStore name="PatientRecords" description="Schema for patient records" version="1"> <Field name="PatientID" searchable="true" caseInsensitive="true" ignoredDelimiters="-,/,*,#,^" /> <Field name="MRN" searchable="true" /> <Field name="FirstName" /> <Field name="LastName" /> <Field name="SSN" searchable="true" /> <Field name="Phone" searchable="true" /> <Field name="DOB" searchable="true" /> <Field name="Gender" /> <Field name="Address" /> </DataStore> </EdmSchema>När du har skapat EDM-schemafilen i XML-format måste du ladda upp den till molntjänsten.
Ansluta till Säkerhets- och efterlevnadscenter i PowerShell.
Om du vill ladda upp databasschemat kör du följande kommando:
New-DlpEdmSchema -FileData ([System.IO.File]::ReadAllBytes('.\\edm.xml')) -Confirm:$trueDu uppmanas att bekräfta på följande sätt:
Bekräfta
Vill du utföra den här åtgärden?
Det nya EDM-schemat för datalagret ”patientrecords” importeras.
[Y] Yes (Ja) [A] Yes to All (Ja för alla) [N] No (Nej) [L] No to All (Nej för alla) [?] Help (Hjälp) (standardinställningen är Y):
Tips
Om du vill att ändringarna ska ske utan bekräftelse ska du inte använda den
-Confirm:$truei steg 3.
Anteckning
Det kan ta mellan 10–60 minuter att uppdatera EDMSchema med tillägg. Uppdateringen måste slutföras innan du utför de steg där tilläggen används.