Skapa en nyckelordsordlistaCreate a keyword dictionary

Dataförlustskyddet (DLP) kan identifiera, övervaka och skydda känsliga objekt.Data loss prevention (DLP) can identify, monitor, and protect your sensitive items. Identifieringen av känsliga objekt måste ibland söka efter nyckelord, särskilt när man identifierar generiskt innehåll (t.ex. sjukvårdsrelaterad kommunikation) eller olämpligt och grovt språk.Identifying sensitive items sometimes requires looking for keywords, particularly when identifying generic content (such as healthcare-related communication), or inappropriate or explicit language. Även om du kan skapa nyckelordslistor för typer av känslig information är de begränsade i storlek och kräver att XML:en ändras för att kunna skapa eller redigera dem.Although you can create keyword lists in sensitive information types, keyword lists are limited in size and require modifying XML to create or edit them. Nyckelordsordlistor ger en enklare hantering av nyckelord och i mycket större skala, med stöd för upp till 1 MB termer (efter komprimering) i ordlistan och med stöd för alla språk.Keyword dictionaries provide simpler management of keywords and at a much larger scale, supporting up to 1 MB of terms (post compression) in the dictionary and support any language. Klientorganisationens gräns är också 1 MB efter komprimering.The tenant limit is also 1 MB after compression. Gränsen på 1 MB efter komprimering innebär att alla kombinerade ordlistor i en klientorganisation kan innehålla nästan 1 miljon tecken.1 MB of post compression limit means that all dictionaries combined across a tenant can have close to 1 million characters.

Begränsningar av nyckelordsordlistorKeyword dictionary limits

Det finns en gräns på 50 nyckelordsordlistor som är baserade på känsliga informationstyper som kan skapas per klientorganisation.There is a limit of 50 keyword dictionary based sensitive information types that can be created per tenant. Om du vill ta reda på hur många nyckelordsordlistor du har i klientorganisationen kan du ansluta med hjälp av metoderna i Anslut till Säkerhets- och efterlevnadscenter i PowerShell för att ansluta till klientorganisationen och köra PowerShell-skriptet.To find out how many keyword dictionaries you have in your tenant, connect using the procedures in Connect to the Security & Compliance Center PowerShell to connect to your tenant and run this PowerShell script.

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
Set-Content -path $rawFile -Encoding Byte -Value $ruleCollections.SerializedClassificationRuleCollection
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Grundläggande steg för att skapa en nyckelordsordlistaBasic steps to creating a keyword dictionary

Nyckelorden för ordlistan kan komma från olika källor, oftast från en fil (till exempel en .csv- eller .txt-lista) som importerats i tjänsten eller av en PowerShell-cmdlet, från en lista som du anger direkt i PowerShell-cmdleten eller från en befintlig ordlista. När du skapar en nyckelordsordlista följer du samma huvudsteg:The keywords for your dictionary could come from various sources, most commonly from a file (such as a .csv or .txt list) imported in the service or by PowerShell cmdlet, from a list you enter directly in the PowerShell cmdlet, or from an existing dictionary. When you create a keyword dictionary, you follow the same core steps:

  1. Använd Säkerhets- och efterlevnadscenter (https://protection.office.com) eller anslut till Säkerhets- & efterlevnadscenter i PowerShell.Use the Security & Compliance Center (https://protection.office.com) or connect to Security & Compliance Center PowerShell.

  2. Definiera eller läs in dina nyckelord från den avsedda källan.Define or load your keywords from your intended source. Både guiden och cmdleten accepterar en kommaavgränsad lista med nyckelord när en anpassad nyckelordsordlista ska skapas. Det här steget varierar därför något beroende på var dina nyckelord kommer från.The wizard and the cmdlet both accept a comma-separated list of keywords to create a custom keyword dictionary, so this step will vary slightly depending on where your keywords come from. När de har lästs in kodas de och konverteras till en bytematris innan de importeras.Once loaded, they're encoded and converted to a byte array before they're imported.

  3. Skapa ordlistan.Create your dictionary. Välj ett namn och en beskrivning och skapa ordlistan.Choose a name and description and create your dictionary.

Skapa en nyckelordsordlista i Säkerhets- och efterlevnadscenterCreate a keyword dictionary using the Security & Compliance Center

Använd följande steg för att skapa och importera nyckelord till en egen ordlista:Use the following steps to create and import keywords for a custom dictionary:

  1. Ansluta till Säkerhets- och efterlevnadscenter (https://protection.office.com).Connect to the Security & Compliance Center (https://protection.office.com).

  2. Gå till Klassificeringar > Typer av känslig information.Navigate to Classifications > Sensitive info types.

  3. Välj Skapa och ange Namn och Beskrivning för typen av känslig information. Välj sedan NästaSelect Create and enter a Name and Description for your sensitive info type, then select Next

  4. Välj Lägg till ett element och välj sedan Ordlista (stora nyckelord) i listrutan Identifiera innehåll som innehåller.Select Add an element, then select Dictionary (Large keywords) in the Detect content containing drop-down list.

  5. Välj Lägg till en ordlistaSelect Add a dictionary

  6. Under sökkontrollen väljer du Du kan skapa nya nyckelordsordlistor här.Under the Search control, select You can create new keyword dictionaries here.

  7. Ange ett Namn på den egna ordlistan.Enter a Name for your custom dictionary.

  8. Välj Importera och välj sedan antingen Från text eller Från CSV beroende på vilken typ av nyckelordsfil du har.Select Import, and select either From text or From csv depending on your keyword file type.

  9. Välj nyckelordsfilen från din lokala dator eller nätverksfilresurs i dialogrutan och välj sedan Öppna.In the file dialog, select the keyword file from your local PC or network file share, then select Open.

  10. Välj Spara och välj sedan din egna ordlista i listan Nyckelordsordlistor.Select Save, then select your custom dictionary from the Keyword dictionaries list.

  11. Välj Lägg till och sedan Nästa.Select Add, then select Next.

  12. Granska och slutför dina markeringar för den känsliga informationstypen och välj sedan Slutför.Review and finalize your sensitive info type selections, then select Finish.

Skapa en nyckelordsordlista från en fil med PowerShellCreate a keyword dictionary from a file using PowerShell

När du behöver skapa en stor ordlista används ofta nyckelord från en fil eller en lista som har exporterats från en annan källa.Often when you need to create a large dictionary, it's to use keywords from a file or a list exported from some other source. I det här fallet skapar du en nyckelordsordlista med olämpligt språk som ska granskas i extern e-post.In this case, you'll create a keyword dictionary containing a list of inappropriate language to screen in external email. Du måste först ansluta till Säkerhets- & efterlevnadscenter i PowerShell.You must first Connect to Security & Compliance Center PowerShell.

  1. Kopiera nyckelorden till en textfil och kontrollera att varje nyckelord finns på en separat rad.Copy the keywords into a text file and make sure that each keyword is on a separate line.

  2. Spara textfilen med Unicode-kodning.Save the text file with Unicode encoding. I Anteckningar > Spara som > Kodning > Unicode.In Notepad > Save As > Encoding > Unicode.

  3. Läs filen till en variabel genom att köra följande cmdlet:Read the file into a variable by running this cmdlet:

    $fileData = Get-Content <filename> -Encoding Byte -ReadCount 0
    
  4. Skapa ordlistan genom att köra följande cmdlet:Create the dictionary by running this cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Använda nyckelordsordlistor i anpassade typer av känslig information och DLP-principerUsing keyword dictionaries in custom sensitive information types and DLP policies

Nyckelordsordlistor kan användas som en del av matchningskraven för en anpassad typ av känslig information eller som en typ av känslig information.Keyword dictionaries can be used as part of the match requirements for a custom sensitive information type, or as a sensitive information type themselves. Båda kräver att du skapar en anpassad typ av känslig information.Both require you to create a custom sensitive information type. Skapa en typ av känslig information genom att följa instruktionerna i den länkade artikeln.Follow the instructions in the linked article to create a sensitive information type. När du har XML-koden behöver du GUID-identifieraren för ordlistan för att kunna använda den.Once you have the XML, you'll need the GUID identifier for the dictionary to use it.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Om du vill hämta identiteten för ordlistan kör du det här kommandot och kopierar egenskapsvärdet Identitet:To get the identity of your dictionary, run this command and copy the Identity property value:

Get-DlpKeywordDictionary -Name "Diseases"

Kommandots utdata ser ut så här:The output of the command looks like this:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania,RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo IsValid : True ObjectState : Unchanged

Klistra in identiteten i XML-koden för din anpassade typ av känslig information och ladda upp den. Nu visas ordlistan i listan med typer av känslig information och du kan använda den direkt i principen, samt ange hur många nyckelord som måste matchas.Paste the identity into your custom sensitive information type's XML and upload it. Now your dictionary will appear in your list of sensitive information types and you can use it right in your policy, specifying how many keywords are required to match.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Anteckning

Microsoft 365 Information Protection har stöd för teckenuppsättningsspråk med dubbla byte i förhandsgranskningen för:Microsoft 365 Information Protection supports in preview double byte character set languages for:

  • Kinesiska (förenklad)Chinese (simplified)
  • Kinesiska (traditionell)Chinese (traditional)
  • KoreanskaKorean
  • JapanskaJapanese

Stödet är tillgängligt för typer av känslig information.This support is available for sensitive information types. Se Viktig information gällande stöd i Information Protection för teckenuppsättningar med dubbla byte (förhandsversion) för mer information.See, Information protection support for double byte character sets release notes (preview) for more information.