Skapa en nyckelordsordlista

Dataförlustskyddet (DLP) kan identifiera, övervaka och skydda känsliga objekt. Identifieringen av känsliga objekt måste ibland söka efter nyckelord, särskilt när man identifierar generiskt innehåll (t.ex. sjukvårdsrelaterad kommunikation) eller olämpligt och grovt språk. Även om du kan skapa nyckelordslistor för typer av känslig information är de begränsade i storlek och kräver att XML:en ändras för att kunna skapa eller redigera dem. Nyckelordsordlistor ger en enklare hantering av nyckelord och i mycket större skala, med stöd för upp till 1 MB termer (efter komprimering) i ordlistan och med stöd för alla språk. Klientorganisationens gräns är också 1 MB efter komprimering. Gränsen på 1 MB efter komprimering innebär att alla kombinerade ordlistor i en klientorganisation kan innehålla nästan 1 miljon tecken.

Begränsningar av nyckelordsordlistor

Det finns en gräns på 50 nyckelordsordlistor som är baserade på känsliga informationstyper som kan skapas per klientorganisation. Om du vill ta reda på hur många nyckelordsordlistor du har i klientorganisationen kan du ansluta med hjälp av metoderna i Anslut till Säkerhets- och efterlevnadscenter i PowerShell för att ansluta till klientorganisationen och köra PowerShell-skriptet.

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
[System.IO.File]::WriteAllBytes((Resolve-Path $rawFile), $ruleCollections.SerializedClassificationRuleCollection)
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Grundläggande steg för att skapa en nyckelordsordlista

Nyckelorden för ordlistan kan komma från olika källor, oftast från en fil (till exempel en .csv- eller .txt-lista) som importerats i tjänsten eller av en PowerShell-cmdlet, från en lista som du anger direkt i PowerShell-cmdleten eller från en befintlig ordlista. När du skapar en nyckelordsordlista följer du samma huvudsteg:

  1. Använd *Microsoft 365 Efterlevnadscentret eller anslut till Säkerhets-& och Efterlevnadscenter PowerShell.

  2. Definiera eller läs in dina nyckelord från den avsedda källan. Både guiden och cmdleten accepterar en kommaavgränsad lista med nyckelord när en anpassad nyckelordsordlista ska skapas. Det här steget varierar därför något beroende på var dina nyckelord kommer från. När de har lästs in kodas de och konverteras till en bytematris innan de importeras.

  3. Skapa din ordlista. Välj ett namn och en beskrivning och skapa din ordlista.

Skapa en nyckelordsordlista i Säkerhets- och efterlevnadscenter

Använd följande steg för att skapa och importera nyckelord till en egen ordlista:

  1. Välkommen till Microsoft 365 Efterlevnadscenter.

  2. Gå till Klassificeringar > Typer av känslig information.

  3. Välj Skapa och ange Namn och Beskrivning för typen av känslig information. Välj sedan Nästa

  4. Välj Lägg till ett element och välj sedan Ordlista (stora nyckelord) i listrutan Identifiera innehåll som innehåller.

  5. Välj Lägg till en ordlista

  6. Under sökkontrollen väljer du Du kan skapa nya nyckelordsordlistor här.

  7. Ange ett Namn på den egna ordlistan.

  8. Välj Importera och välj sedan antingen Från text eller Från CSV beroende på vilken typ av nyckelordsfil du har.

  9. Välj nyckelordsfilen från din lokala dator eller nätverksfilresurs i dialogrutan och välj sedan Öppna.

  10. Välj Spara och välj sedan din egna ordlista i listan Nyckelordsordlistor.

  11. Välj Lägg till och sedan Nästa.

  12. Granska och slutför dina markeringar för den känsliga informationstypen och välj sedan Slutför.

Skapa en nyckelordsordlista från en fil med PowerShell

När du behöver skapa en stor ordlista används ofta nyckelord från en fil eller en lista som har exporterats från en annan källa. I det här fallet skapar du en nyckelordsordlista med olämpligt språk som ska granskas i extern e-post. Först måste du Ansluta till Säkerhets- och efterlevnadscenter i PowerShell.

  1. Kopiera nyckelorden till en textfil och kontrollera att varje nyckelord finns på en separat rad.

  2. Spara textfilen med Unicode-kodning. I Anteckningar > Spara som > Kodning > Unicode.

  3. Läs filen till en variabel genom att köra följande cmdlet:

    $fileData = [System.IO.File]::ReadAllBytes('<filename>')
    
  4. Skapa ordlistan genom att köra följande cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Använda nyckelordsordlistor i anpassade typer av känslig information och DLP-principer

Nyckelordsordlistor kan användas som en del av matchningskraven för en anpassad typ av känslig information eller som en typ av känslig information. Båda kräver att du skapar en anpassad typ av känslig information. Skapa en typ av känslig information genom att följa instruktionerna i den länkade artikeln. När du har XML-koden behöver du GUID-identifieraren för ordlistan för att kunna använda den.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Om du vill hämta identiteten för ordlistan kör du det här kommandot och kopierar egenskapsvärdet Identitet:

Get-DlpKeywordDictionary -Name "Diseases"

Kommandots utdata ser ut så här:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo IsValid : True ObjectState : Unchanged

Klistra in identiteten i XML-koden för din anpassade typ av känslig information och ladda upp den. Nu visas ordlistan i listan med typer av känslig information och du kan använda den direkt i principen, samt ange hur många nyckelord som måste matchas.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Anteckning

Microsoft 365 i informationsskyddet stöds språk för teckenuppsättning med dubbla byte för:

  • Kinesiska (förenklad)
  • Kinesiska (traditionell)
  • Korean
  • Japanska

Stödet är tillgängligt för typer av känslig information. Se Viktig information gällande stöd i Information Protection för teckenuppsättningar med dubbla byte (förhandsversion) för mer information.

Tips

Om du vill identifiera mönster som innehåller kinesiska/japanska tecken och en-byte-tecken eller för att identifiera mönster som innehåller kinesiska/japanska och engelska, definierar du två varianter av nyckelordet eller regex.

  • Om du till exempel vill identifiera ett nyckelord som "机密的dokument" använder du två varianter av nyckelordet. en med ett blanksteg mellan den japanska och den engelska texten och en annan utan blanksteg mellan den japanska och den engelska texten. Nyckelorden som ska läggas till i SIT ska därför vara "dokumentet "机密的 dokument" och ""机密的dokument". På samma sätt bör två varianter användas för att identifiera frasen "東京オリンピック2020". "東京オリンピック 2020" och "東京オリンピック2020".

Om listan med nyckelord/fraser även innehåller icke-kinesiska/japanska ord (som endast engelska) tillsammans med kinesiska/japanska/DB-tecken (double-byte), rekommenderar vi att du skapar två ordlistor/nyckelordslistor. En för nyckelord som innehåller kinesiska/japanska/DB-tecken (double-byte) och en annan för endast engelska.

  • Om du till exempel vill skapa en nyckelordsordlista/lista med tre fraser “Strikt konfidentiellt”, “機密性が高い” och “机密的dokument”, då bör du skapa två nyckelordslistor.
    1. Strikt konfidentiellt
    2. 機密性が高い, 机密的 dokument och 机密的 dokument

När du skapar ett regex med ett bindestreck med dubbla byte eller en period med dubbla byte ser du till att undanta båda tecknen som ett av bindestreck eller en punkt i ett regex. Här är ett exempel på regex som referens:

  • (?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Vi rekommenderar att du använder en strängmatchning i stället för en ordmatchning i en nyckelordslista.