Läs mer om typer av känslig information

Att identifiera och klassificera känsliga objekt som din organisation kontrollerar är det första steget i informationsskyddsgrenen. Microsoft 365 finns tre sätt att identifiera objekt så att de kan klassificeras:

  • manuellt av användare
  • automatiserad mönsterigenkänning, som typer av känslig information
  • maskininlärning

Känsliga informationstyper är mönsterbaserade klassificerare. De kan identifiera känslig information som personnummer, kreditkort eller bankkontonummer för att identifiera känsliga objekt i Definitioner av typer av känslig information

Typer av känslig information används i

Grundläggande delar av en typ av känslig information

Alla typer av känslig information definieras av följande fält:

  • namn: så här refereras typen av känslig information till
  • beskrivning: beskriver vad typen av känslig information letar efter
  • mönster: Ett mönster definierar vad en typ av känslig information identifierar. Den består av följande komponenter
    • Primärt element – huvudelementet som den typ av känslig information letar efter. Det kan vara ett vanligt uttryck med eller utan en kontrollsummaverifiering, en nyckelordslista, en nyckelordsordlista eller en funktion.
    • Stödelement – element som fungerar som stöd bevis som bidrar till att öka matchningens förtroende. Till exempel nyckelordet "SSN" i närheten av ett SSN-tal. Det kan vara ett vanligt uttryck med eller utan en verifiering av kontrollsumma, nyckelordslista och nyckelordsordlista.
    • Konfidensnivå – Konfidensnivåer (hög, medium, låg) återspeglar hur mycket stöd bevis upptäcktes tillsammans med det primära elementet. Ju mer understödjande bevis ett objekt innehåller, desto högre förtroende för att ett matchat objekt innehåller den känsliga information du letar efter.
    • Närhet – antal tecken mellan primärt element och stödelement

Diagram över bekräftande bevis och närhetsfönster.

Lär dig mer om konfidensnivåer i den här videon

Exempel på typ av känslig information

Argentinas national identity (DNI) number

Format

Åtta siffror avgränsade med punkter

Mönster

Åtta siffror:

  • två siffror
  • en punkt
  • tre siffror
  • en punkt
  • tre siffror

Kontrollsumma

Nej

Definition

En DLP-princip har med medelhög säkerhet identifierat den här typen av känslig information om följande inifrån 300 tecken:

  • Det reguljära uttrycket Regex_argentina_national_id hittar innehåll som matchar mönstret.
  • Ett nyckelord från Keyword_argentina_national_id hittas.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Nyckelord

Keyword_argentina_national_id

  • Argentina National Identity Number
  • Identitet
  • Identification National Identity Card
  • DNI
  • NIC National Registry of Persons
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

Mer om konfidensnivåer

I en definition av typen känslig information återspeglar konfidensnivån hur mycket stödbevis som identifieras utöver det primära elementet. Ju mer understödjande bevis ett objekt innehåller, desto högre förtroende för att ett matchat objekt innehåller den känsliga information du letar efter. Exempelvis innehåller matchningar med hög konfidensnivå fler stödbevis i nära närhet av det primära elementet, medan matchningar med låg konfidensnivå inte skulle innehålla några stödbevis i närheten.

En hög konfidensnivå returnerar de minsta falska positiva talen men kan resultera i fler falska negativa resultat. Låga eller medelhöga konfidensnivåer returnerar fler falska positiva tal, men några till noll negativa tal.

  • låg konfidens: Värdet 65, matchade objekt innehåller färre falska negativa men mest falska positiva resultat. Med låg konfidens returneras alla matchningar med låg, medel och hög konfidens.
  • medelförtroende: Värdet 75, matchade objekt innehåller en genomsnittlig mängd falska positiva värden och falska negativa värden. Medelhög konfidens returnerar alla medelhöga och högförtroende matchningar.
  • hög konfidens: Värdet 85, matchade objekt innehåller färre falska positiva resultat men mest falska negativa. Hög konfidens returnerar bara matchningar med hög konfidens.

Du bör använda mönster med hög konfidensnivå med låga tal, t.ex. fem till tio, och mönster med låg konfidensnivå med högre antal, t.ex. 20 eller fler.

Anteckning

Om du har befintliga principer eller anpassade typer av känslig information (SITs) som definierats med hjälp av nummerbaserade konfidensnivåer (som också är korrekta) mappas de automatiskt till de tre diskreta konfidensnivåerna. Med låg konfidens, medelhög konfidens och hög säkerhet i användargränssnittet för Säkerhets- och efterlevnadscenter.

  • Alla principer med minsta noggrannhet eller anpassade SIT-mönster med konfidensnivåer på mellan 76 och 100 mappas till högt förtroende.
  • Alla principer med minsta precision eller anpassade SIT-mönster med konfidensnivåer mellan 66 och 75 mappas till medelhög konfidens.
  • Alla principer med minsta noggrannhet eller anpassade SIT-mönster med konfidensnivåer som är mindre än eller lika med 65 mappas till ett lågt förtroende.

Skapa anpassade typer av känslig information

Om du vill skapa anpassade typer av känslig information & Säkerhets- och efterlevnadscenter kan du välja mellan flera alternativ:

Anteckning

Förbättrade konfidensnivåer är tillgängliga för omedelbar användning inom dataförlustskydd för Microsoft 365-tjänster, Microsoft Information Protection för Microsoft 365-tjänster, kommunikationsefterlevnad, informationsstyrning och hantering av arkivhandlingar. Microsoft 365 Informationsskydd har nu stöd för språk med dubbla byte-teckenuppsättning för:

  • Kinesiska (förenklad)
  • Kinesiska (traditionell)
  • Korean
  • Japanska

Stödet är tillgängligt för typer av känslig information. Se Viktig information gällande stöd i Information Protection för teckenuppsättningar med dubbla byte (förhandsversion) för mer information.

Tips

Om du vill identifiera mönster som innehåller kinesiska/japanska tecken och en-byte-tecken eller för att identifiera mönster som innehåller kinesiska/japanska och engelska, definierar du två varianter av nyckelordet eller regex.

  • Om du till exempel vill identifiera ett nyckelord som "机密的dokument" använder du två varianter av nyckelordet. en med ett blanksteg mellan den japanska och den engelska texten och en annan utan blanksteg mellan den japanska och den engelska texten. Nyckelorden som ska läggas till i SIT ska därför vara "dokumentet "机密的 dokument" och ""机密的dokument". På samma sätt bör två varianter användas för att identifiera frasen "東京オリンピック2020". "東京オリンピック 2020" och "東京オリンピック2020".

Om listan med nyckelord/fraser även innehåller icke-kinesiska/japanska ord (som endast engelska) tillsammans med kinesiska/japanska/DB-tecken (double-byte), rekommenderar vi att du skapar två ordlistor/nyckelordslistor. En för nyckelord som innehåller kinesiska/japanska/DB-tecken (double-byte) och en annan för endast engelska.

  • Om du till exempel vill skapa en nyckelordsordlista/lista med tre fraser “Strikt konfidentiellt”, “機密性が高い” och “机密的dokument”, då bör du skapa två nyckelordslistor.
    1. Strikt konfidentiellt
    2. 機密性が高い, 机密的 dokument och 机密的 dokument

När du skapar ett regex med ett bindestreck med dubbla byte eller en period med dubbla byte ser du till att undanta båda tecknen som ett av bindestreck eller en punkt i ett regex. Här är ett exempel på regex som referens:

  • (?<!\d)([4][0-9]{3}[-?\-\t]*[0-9]{4}

Vi rekommenderar att du använder strängmatchning i stället för matchning av ord i en nyckelordslista.

Om du vill ha mer information

Mer information om hur du använder känsliga informationstyper för att följa sekretessregler för data finns i Distribuera informationsskydd för bestämmelser om datasekretess med Microsoft 365 (aka.ms/m365dataprivacy).