Läs om exakta datamatchningsbaserade typer av känslig information
Typer av känslig information används för att identifiera känsliga objekt så att du kan förhindra att de oavsiktligt eller olämpligt delas, för att hjälpa till att hitta relevanta data i eDiscovery och för att tillämpa styrningsåtgärder på vissa typer av information. Du definierar en anpassad typ av känslig information (SIT) baserat på:
- mönster
- nyckelords bevis som anställd, personnummer eller ID
- teckennärhet till bevis i ett visst mönster
- konfidensnivåer
Men vad händer om du vill använda en anpassad typ av känslig information (SIT) som använder exakta eller nästan exakta datavärden istället för en som hittade matchningar baserat på allmänna mönster? Med exakt datamatchning (EDM) baserad klassificering kan du skapa en anpassad typ av känslig information som har utformats för att:
- vara dynamisk och enkel att uppdatera
- vara mer skalbar
- ge färre falska positiva resultat
- arbeta med strukturerade känsliga data
- hantera känslig information på ett säkrare sätt, inte dela den med någon, inklusive Microsoft
- användas med flera Microsoft-molntjänster

Med en EDM-baserad klassificering kan du skapa anpassade typer av känslig information som refererar till exakta värden i en databas med känslig information. Databasen kan uppdateras varje dag och innehålla upp till 100 miljoner rader med data. När anställda, patienter eller kunder kommer och går och poster ändras förblir de anpassade typerna av känslig information aktuella och tillämpliga. Och du kan använda EDM-baserad klassificering med principer, till exempel principer för dataförlustskydd eller Microsoft Cloud App Security-filprinciper.
Anteckning
Microsoft 365 Information Protection har stöd för teckenuppsättningsspråk med dubbla byte i förhandsgranskningen för:
- Kinesiska (förenklad)
- Kinesiska (traditionell)
- Korean
- Japanska
Stödet är tillgängligt för typer av känslig information. Se Viktig information gällande stöd i Information Protection för teckenuppsättningar med dubbla byte (förhandsversion) för mer information.
Vad är annorlunda i en EDM SIT
När du arbetar med EDM-SITs är det bra om du förstår några begrepp som är unika för dem.
Schema
Schemat är en XML-fil som definierar:
- Namnet på schemat, senare kallat DataStore.
- Fältnamnen som tabellen för känslig informationskälla innehåller. Det finns en 1:1-mappning av schemafältnamnet till kolumnnamnet för känslig informationskälla.
- Vilka fält som är sökbara.
- Alla sökparametrar, så kallade konfigurerbara matchningar, som att ignorera avgränsare och gemener i eftersökta värden.
Tabell för känslig informationskälla
Den känsliga källtabellen innehåller de känsliga informationsvärden som EDM SIT kommer att leta efter. Den består av kolumner och rader. Kolumnrubrikerna är fältnamnen, raderna är en instans av data och varje cell innehåller värdena för den instansen av fältet.
Här är ett enkelt exempel på en tabell med känslig informationskälla.
| Förnamn | Efternamn | Födelsedatum |
|---|---|---|
| Isa denisy | Langer | 05-05-1960 |
| Ana | Bowman | 11-24-1971 |
| Så här ser det ut | Så här ser det ut | 02-12-1998 |
Regelpaket
Alla SIT har ett regelpaket. Du använder regelpaketet i en EDM SIT för att definiera:
- Matchningar, som anger vilket fält som ska vara det primära elementet som ska användas i exakt sökning. Det kan vara ett vanligt uttryck med eller utan en kontrollsummaverifiering, en nyckelordslista, en nyckelordsordlista eller en funktion.
- Klassificering, som anger den typmatchning för känslig typ som utlöser EDM-sökning.
- Stödelement som är element som, när de har hittats ger stöd bevis som bidrar till att öka matchningens förtroende. Till exempel nyckelordet "SSN" i närheten av ett SSN-tal. Det kan vara ett vanligt uttryck med eller utan en verifiering av kontrollsumma, nyckelordslista och nyckelordsordlista.
- Konfidensnivåer (hög, medium, låg) återspeglar hur mycket stöd bevis upptäcktes tillsammans med det primära elementet. Ju mer understödjande bevis ett objekt innehåller, desto högre förtroende för att ett matchat objekt innehåller den känsliga information du letar efter. Mer information om konfidensnivåer finns i Grundläggande delar av en typ av känslig information. Närhet – antal tecken mellan primärt element och stödelement
Du tillhandahåller egna scheman och data
Microsoft 365 levereras med fler än 200 SITS med fördefinierade scheman, regex-mönster, nyckelord och konfidensnivåer. Med EDM-SIT:er är du ansvarig för att definiera schemat samt primära och sekundära fält som identifierar känsliga objekt. Eftersom schema och primära och sekundära datavärden är mycket känsliga krypterar du dem via en hash-funktion som innehåller ett slumpmässigt genererat eller självförsörjt saltvärde. Dessa hashade värden överförs sedan till tjänsten, så att känsliga data aldrig är öppna.
Primära och sekundära supportelement
När du skapar en EDM SIT definierar du ett primärt elementfält i regelpaketet. Primära fält är de element som allt innehåll ska sökas efter och som måste följa ett definierat mönster för att kunna identifieras. När det primära elementet hittas i skannade objekt söker EDM efter de sekundära elementen eller stödelementen, som inte behöver följa ett mönster och hur nära det primära elementet finns. EDM kräver att det primära elementet först kan upptäckas via en befintlig SIT. Se Definitioner av typer av känslig information för en fullständig lista över tillgängliga SITs. Du måste hitta en som identifierar klassen som du vill att EDM SIT ska identifiera. Om ditt EDM SIT-schema till exempel har amerikanskt personnummer som primärt element kommer du att kopplas till SSN SIT när du skapar ett EDM-schema.
Så här fungerar matchning
EDM söker efter matchningar genom att jämföra innehåll som hittas mot en tabell med känsliga data som du själv definierar. Matchningstestningen utförs med en kombination av traditionella regler och mönster för att säkerställa att matchande data är en faktisk instans av data som du vill hitta och skydda. EDM arbetar längst ned genom att jämföra strängar i dina dokument och e-postmeddelanden med värden i en tabell med känsliga data som du anger för att ta reda på om värdena i ditt innehåll finns i tabellen genom att jämföra envägs kryptografiska hashvärden.
Tips
En vanlig metod är att kombinera användningen av EDM-typer av känslig information och de vanliga typerna av känslig information som de baseras på i DLP-regler, med olika tröskelvärden. Du kan till exempel använda en EDM-känslig informationstyp som letar efter personnummer och andra data, med strikta krav och låg känslighet där en eller flera matchningar orsakar en DLP-avisering och använder den vanliga typen av känslig information, t.ex. det inbyggda amerikanska personnumret, för högre antal.