Läs mer om typer av känslig information

Att identifiera och klassificera känsliga objekt som din organisation kontrollerar är det första steget i informationsskyddsgrenen. Microsoft 365 finns tre sätt att identifiera objekt så att de kan klassificeras:

  • manuellt av användare
  • automatiserad mönsterigenkänning, som typer av känslig information
  • maskininlärning

Känsliga informationstyper är mönsterbaserade klassificerare. De kan identifiera känslig information som personnummer, kreditkort eller bankkontonummer för att identifiera känsliga objekt i Definitioner av typer av känslig information

Typer av känslig information används i

Grundläggande delar av en typ av känslig information

Alla typer av känslig information definieras av följande fält:

  • namn: så här refereras typen av känslig information till
  • beskrivning: beskriver vad typen av känslig information letar efter
  • mönster: Ett mönster definierar vad en typ av känslig information identifierar. Den består av följande komponenter.
    • Primärt element – Huvudelementet som typen av känslig information söker efter. Det kan vara ett vanligt uttryck med eller utan en kontrollsummaverifiering , en nyckelordslista, en nyckelordsordlista eller en funktion.
    • Stödelement – Element som fungerar som stöd bevis som bidrar till att öka matchningens förtroende. Till exempel nyckelordet "SSN" i närheten av ett SSN-nummer. Det kan vara ett vanligt uttryck med eller utan en verifiering av kontrollsumma, nyckelordslista och nyckelordsordlista.
    • Konfidensnivå – Konfidensnivåer (hög, medium, låg) återspeglar hur mycket stöd bevis upptäcktes tillsammans med det primära elementet. Ju mer understödjande bevis ett objekt innehåller, desto högre förtroende för att ett matchat objekt innehåller den känsliga information du letar efter.
    • Närhet – antalet tecken mellan primärt element och stödelement.

Diagram över bekräftande bevis och närhetsfönster.

Lär dig mer om konfidensnivåer i den här videon

Exempel på typ av känslig information

Argentinas national identity (DNI) number

Format

Åtta siffror avgränsade med punkter

Mönster

Åtta siffror:

  • två siffror
  • en punkt
  • tre siffror
  • en punkt
  • tre siffror

Kontrollsumma

Nej

Definition

En DLP-princip har med medelhög säkerhet identifierat den här typen av känslig information om följande inifrån 300 tecken:

  • Det reguljära uttrycket Regex_argentina_national_id hittar innehåll som matchar mönstret.
  • Ett nyckelord från Keyword_argentina_national_id hittas.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Nyckelord

Keyword_argentina_national_id

  • Argentina National Identity Number
  • Identitet
  • Identification National Identity Card
  • DNI
  • NIC National Registry of Persons
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Mer om konfidensnivåer

I en definition av typen känslig information återspeglar konfidensnivån hur mycket stödbevis som identifieras utöver det primära elementet. Ju mer understödjande bevis ett objekt innehåller, desto högre förtroende för att ett matchat objekt innehåller den känsliga information du letar efter. Exempelvis innehåller matchningar med hög konfidensnivå fler stödbevis i närheten av det primära elementet, medan matchningar med låg konfidensnivå inte skulle innehålla några stödbevis i närheten.

En hög konfidensnivå returnerar de minsta falska positiva talen men kan leda till fler falska negativa resultat. Låga eller medelhöga konfidensnivåer returnerar fler falska positiva tal, men några till noll negativa tal.

  • lågt förtroende: Matchade objekt innehåller minst falska negativa men mest falska positiva resultat. Med låg konfidens returneras alla matchningar med låg, medel och hög konfidens. Nivån med lågt förtroende har värdet 65.
  • medelförtroende: Matchade objekt innehåller en genomsnittlig mängd falska positiva resultat och falska negativa resultat. Medelhög konfidens returnerar alla medelhöga och högförtroende matchningar. Konfidensnivån med medel har värdet 75.
  • Hög exakt: Matchade objekt innehåller minst falska positiva resultat men mest falska negativa. Hög konfidens returnerar bara matchningar med högt förtroende och har värdet 85.

Du bör använda mönster med hög konfidensnivå med låga tal, t.ex. fem till tio, och mönster med låg konfidensnivå med högre antal, t.ex. 20 eller fler.

Anteckning

Om du har befintliga principer eller anpassade typer av känslig information (SITs) som definierats med hjälp av nummerbaserade konfidensnivåer (som också är korrekta) mappas de automatiskt till de tre diskreta konfidensnivåerna. Med låg konfidens, medelhög konfidens och hög säkerhet i användargränssnittet för Säkerhets- och efterlevnadscenter.

  • Alla principer med minsta noggrannhet eller anpassade SIT-mönster med konfidensnivåer på mellan 76 och 100 mappas till högt förtroende.
  • Alla principer med minsta precision eller anpassade SIT-mönster med konfidensnivåer mellan 66 och 75 mappas till medelhög konfidens.
  • Alla principer med minsta noggrannhet eller anpassade SIT-mönster med konfidensnivåer som är mindre än eller lika med 65 mappas till ett lågt förtroende.

Skapa anpassade typer av känslig information

Du kan välja bland flera alternativ för att skapa anpassade typer av känslig information i efterlevnadscentret.

Anteckning

Förbättrade konfidensnivåer är tillgängliga för omedelbar användning inom dataförlustskydd för Microsoft 365-tjänster, Microsoft Information Protection för Microsoft 365-tjänster, kommunikationsefterlevnad, informationsstyrning och hantering av arkivhandlingar. Microsoft 365 informationsskydd har nu stöd för språk med dubbla byte-teckenuppsättning för:

  • Kinesiska (förenklad)
  • Kinesiska (traditionell)
  • Korean
  • Japanska

Stödet är tillgängligt för typer av känslig information. Mer information finns i Informationsskydd för viktig information om teckenuppsättningar med dubbla byte.

Tips

Om du vill identifiera mönster som innehåller kinesiska/japanska tecken och en-byte-tecken eller för att identifiera mönster som innehåller kinesiska/japanska och engelska, definierar du två varianter av nyckelordet eller regex.

  • Om du till exempel vill identifiera ett nyckelord som "机密的dokument" använder du två varianter av nyckelordet. en med ett blanksteg mellan den japanska och den engelska texten och en annan utan blanksteg mellan den japanska och den engelska texten. Nyckelorden som ska läggas till i SIT ska därför vara "dokumentet "机密的 dokument" och ""机密的dokument". På samma sätt bör två varianter användas för att identifiera frasen "東京オリンピック2020". "東京オリンピック 2020" och "東京オリンピック2020".

Om listan med nyckelord/fraser även innehåller icke-kinesiska/japanska ord även (t.ex. endast engelska), bör du skapa två ordlistor eller nyckelord tillsammans med kinesiska/japanska tecken. En för nyckelord som innehåller kinesiska/japanska/DB-tecken (double-byte) och en annan för endast engelska.

  • Om du till exempel vill skapa en ordlista/lista med tre fraser som är mycket konfidentiella, "機密性が高い" och "机密的document", bör du skapa två nyckelordslistor.
    1. Strikt konfidentiellt
    2. 機密性が高い, 机密的 dokument och 机密的 dokument

När du skapar ett regex med ett bindestreck med dubbla byte eller en period med dubbla byte ser du till att undanta båda tecknen som ett av bindestreck eller en punkt i ett regex. Här är ett exempel på regex som referens:

  • (?<!\d)([4][0-9]{3}[-?\-\t]*[0-9]{4}

Vi rekommenderar att du använder strängmatchning i stället för matchning av ord i en nyckelordslista.

Om du vill ha mer information

Mer information om hur du använder typer av känslig information för att uppfylla sekretessregler för data finns i Distribuera informationsskydd för bestämmelser om datasekretess med Microsoft 365 (aka.ms/m365dataprivacy).