Een woordenlijst met trefwoorden makenCreate a keyword dictionary

Preventie van gegevensverlies (DLP) kan uw vertrouwelijke items identificeren, controleren en beveiligen.Data loss prevention (DLP) can identify, monitor, and protect your sensitive items. Soms moet er worden gezocht naar trefwoorden om gevoelige items te identificeren, met name bij het identificeren van algemene inhoud (zoals communicatie in verband met gezondheidszorg) of ongepaste taal of expliciete taal.Identifying sensitive items sometimes requires looking for keywords, particularly when identifying generic content (such as healthcare-related communication), or inappropriate or explicit language. Hoewel u trefwoordlijsten in typen vertrouwelijke informatie kunt maken, zijn trefwoordlijsten beperkt in grootte en moet XML worden gewijzigd om ze te maken of te bewerken.Although you can create keyword lists in sensitive information types, keyword lists are limited in size and require modifying XML to create or edit them. Trefwoordenlijsten bieden een eenvoudiger beheer van trefwoorden en op een veel grotere schaal. Ze ondersteunen maximaal 1 MB aan termen (na compressie) in de woordenlijst en ondersteunen elke taal.Keyword dictionaries provide simpler management of keywords and at a much larger scale, supporting up to 1 MB of terms (post compression) in the dictionary and support any language. De tenantlimiet is ook 1 MB na compressie.The tenant limit is also 1 MB after compression. De limiet van 1 MB voor de compressie na de compressie betekent dat alle woordenlijsten voor een tenant bijna 1 miljoen tekens kunnen hebben.1 MB of post compression limit means that all dictionaries combined across a tenant can have close to 1 million characters.

Limieten trefwoordenlijstKeyword dictionary limits

Er geldt een limiet van 50 vertrouwelijke informatietypen op basis van trefwoordlijsten die per tenant kunnen worden aangemaakt.There is a limit of 50 keyword dictionary based sensitive information types that can be created per tenant. Als u wilt weten hoeveel woordenlijsten u in uw tenant hebt, maakt u verbinding via de procedures in Verbinding maken het Beveiligings- en compliancecentrum in PowerShell om verbinding te maken met uw tenant en dit PowerShell-script uit te voeren.To find out how many keyword dictionaries you have in your tenant, connect using the procedures in Connect to the Security & Compliance Center PowerShell to connect to your tenant and run this PowerShell script.

$rawFile = $env:TEMP + "\rule.xml"

$kd = Get-DlpKeywordDictionary
$ruleCollections = Get-DlpSensitiveInformationTypeRulePackage
Set-Content -path $rawFile -Encoding Byte -Value $ruleCollections.SerializedClassificationRuleCollection
$UnicodeEncoding = New-Object System.Text.UnicodeEncoding
$FileContent = [System.IO.File]::ReadAllText((Resolve-Path $rawFile), $unicodeEncoding)

if($kd.Count -gt 0)
{
$count = 0
$entities = $FileContent -split "Entity id"
for($j=1;$j -lt $entities.Count;$j++)
{
for($i=0;$i -lt $kd.Count;$i++)
{
$Matches = Select-String -InputObject $entities[$j] -Pattern $kd[$i].Identity -AllMatches
$count = $Matches.Matches.Count + $count
if($Matches.Matches.Count -gt 0) {break}
}
}

Write-Output "Total Keyword Dictionary SIT:"
$count
}
else
{
$Matches = Select-String -InputObject $FileContent -Pattern $kd.Identity -AllMatches
Write-Output "Total Keyword Dictionary SIT:"
$Matches.Matches.Count
}

Remove-Item $rawFile

Basisstappen voor het maken van een trefwoordenlijstBasic steps to creating a keyword dictionary

De trefwoorden voor uw woordenlijst kunnen afkomstig zijn uit verschillende bronnen, meestal uit een bestand (zoals een .csv- of .txt-lijst) dat in de service of door een PowerShell-cmdlet is geïmporteerd, uit een lijst die u rechtstreeks in de PowerShell-cmdlet of uit een bestaande woordenlijst invoert. Wanneer u een trefwoordenlijst maakt, volgt u dezelfde stappen:The keywords for your dictionary could come from various sources, most commonly from a file (such as a .csv or .txt list) imported in the service or by PowerShell cmdlet, from a list you enter directly in the PowerShell cmdlet, or from an existing dictionary. When you create a keyword dictionary, you follow the same core steps:

  1. Gebruik het ,Beveiligings- en compliancecentrum (https://protection.office.com) of maak verbinding met Beveiligings- & compliancecentrum PowerShell.Use the Security & Compliance Center (https://protection.office.com) or connect to Security & Compliance Center PowerShell.

  2. Definieer of voer uw trefwoorden in vanuit uw bedoelde bron.Define or load your keywords from your intended source. De wizard en de cmdlet aanvaarden beide een door komma's gescheiden lijst met trefwoorden om een aangepaste woordenlijst voor trefwoorden te creëren. Deze stap varieert dus enigszins, afhankelijk van waar uw trefwoorden vandaan komen.The wizard and the cmdlet both accept a comma-separated list of keywords to create a custom keyword dictionary, so this step will vary slightly depending on where your keywords come from. Nadat ze zijn geladen, worden ze versleuteld en geconverteerd naar een byte-matrix voordat ze worden geïmporteerd.Once loaded, they're encoded and converted to a byte array before they're imported.

  3. Uw woordenlijst makenCreate your dictionary. Kies een naam en beschrijving en maak uw woordenlijst aan.Choose a name and description and create your dictionary.

Een refwoordenlijst maken met het Beveiligings- en compliancecentrumCreate a keyword dictionary using the Security & Compliance Center

Gebruik de volgende stappen om trefwoorden te maken en te importeren voor een aangepaste woordenlijst:Use the following steps to create and import keywords for a custom dictionary:

  1. Verbinding maken met het Beveiligings- en compliancecentrum (https://protection.office.com)Connect to the Security & Compliance Center (https://protection.office.com).

  2. Ga naar Classificaties > vertrouwelijke informatietypen.Navigate to Classifications > Sensitive info types.

  3. Selecteer Maken en voer een Naam en Beschrijving in voor het vertrouwelijke gegevenstype, en selecteer vervolgens VolgendeSelect Create and enter a Name and Description for your sensitive info type, then select Next

  4. Selecteer Een element toevoegen en selecteer vervolgens Woordenlijst (grote trefwoorden) in de vervolgkeuzelijst Inhoud detecteren met.Select Add an element, then select Dictionary (Large keywords) in the Detect content containing drop-down list.

  5. Selecteer een woordenlijst toevoegen.Select Add a dictionary

  6. Selecteer onder het besturingselement Zoeken U kunt hier nieuwe woordenlijsten voor trefwoorden aanmaken.Under the Search control, select You can create new keyword dictionaries here.

  7. Voer een Naam voor de aangepaste woordenlijst in.Enter a Name for your custom dictionary.

  8. Selecteer Importeren en selecteer Uit tekst of Uit een .csv-bestand afhankelijk van het type trefwoordbestand.Select Import, and select either From text or From csv depending on your keyword file type.

  9. Selecteer in het dialoogvenster het trefwoordbestand van uw lokale pc of netwerkbestandsshare en selecteer vervolgens Openen.In the file dialog, select the keyword file from your local PC or network file share, then select Open.

  10. Selecteer Opslaan en selecteer vervolgens uw aangepaste woordenlijst in de lijst met Trefwoordlijsten.Select Save, then select your custom dictionary from the Keyword dictionaries list.

  11. Selecteer Toevoegen en vervolgens Volgende.Select Add, then select Next.

  12. Controleer de selecties van vertrouwelijke gegevenstype en rond deze af en selecteer Voltooien.Review and finalize your sensitive info type selections, then select Finish.

Een trefwoordwoordenlijst maken vanuit een bestand met PowerShellCreate a keyword dictionary from a file using PowerShell

Wanneer u een grote woordenlijst moet maken, is het vaak nodig om trefwoorden te gebruiken uit een bestand of een lijst die is geëxporteerd vanuit een andere bron.Often when you need to create a large dictionary, it's to use keywords from a file or a list exported from some other source. In dit geval maakt u een trefwoordwoordenlijst met een lijst met ongepaste taal die u uit externe e-mail kunt weren.In this case, you'll create a keyword dictionary containing a list of inappropriate language to screen in external email. U maakt als eerste Verbinding met PowerShell van het Beveiligings-& en compliancecentrum.You must first Connect to Security & Compliance Center PowerShell.

  1. Kopieer de trefwoorden naar een tekstbestand en zorg ervoor dat elk trefwoord op een aparte regel staat.Copy the keywords into a text file and make sure that each keyword is on a separate line.

  2. Sla het tekstbestand op met Unicode-codering.Save the text file with Unicode encoding. Selecteer in Kladblok > Opslaan als > Codering > Unicode.In Notepad > Save As > Encoding > Unicode.

  3. Lees het bestand in een variabele door deze cmdlet uit te voeren:Read the file into a variable by running this cmdlet:

    $fileData = Get-Content <filename> -Encoding Byte -ReadCount 0
    
  4. Maak de woordenlijst door deze cmdlet uit te voeren:Create the dictionary by running this cmdlet:

    New-DlpKeywordDictionary -Name <name> -Description <description> -FileData $fileData
    

Trefwoordenlijsten gebruiken in aangepaste typen vertrouwelijke informatie en DLP-beleidsregelsUsing keyword dictionaries in custom sensitive information types and DLP policies

Trefwoordenlijsten kunnen worden gebruikt als onderdeel van de vereisten voor overeenkomende gegevens voor een aangepast type vertrouwelijke informatie, of zelf als een type gevoelige informatie.Keyword dictionaries can be used as part of the match requirements for a custom sensitive information type, or as a sensitive information type themselves. Voor beide moet een aangepast type gevoelige informatie worden gemaakt.Both require you to create a custom sensitive information type. Volg de instructies in het gekoppelde artikel om een type gevoelige informatie te maken.Follow the instructions in the linked article to create a sensitive information type. Wanneer u de XML hebt, hebt u de GUID-id voor de woordenlijst nodig om deze te gebruiken.Once you have the XML, you'll need the GUID identifier for the dictionary to use it.

<Entity id="9e5382d0-1b6a-42fd-820e-44e0d3b15b6e" patternsProximity="300" recommendedConfidence="75">
    <Pattern confidenceLevel="75">
        <IdMatch idRef=". . ."/>
    </Pattern>
</Entity>

Voer deze opdracht uit om de identiteit van uw woordenlijst op te halen en de waarde van de eigenschap id te kopiëren:To get the identity of your dictionary, run this command and copy the Identity property value:

Get-DlpKeywordDictionary -Name "Diseases"

De uitvoer van de opdracht ziet er zo uit:The output of the command looks like this:

RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania,RunspaceId : 138e55e7-ea1e-4f7a-b824-79f2c4252255 Identity : 8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f Name : Diseases Description : Names of diseases and injuries from ICD-10-CM lexicon KeywordDictionary : aarskog's syndrome, abandonment, abasia, abderhalden-kaufmann-lignac, abdominalgia, abduction contracture, abetalipo proteinemia, abiotrophy, ablatio, ablation, ablepharia, abocclusion, abolition, aborter, abortion, abortus, aboulomania, abrami's disease, abramo IsValid : True ObjectState : Unchanged

U plak de identiteit in uw aangepast type gevoelige informatie-XML en u upload deze. De woordenlijst wordt nu weergegeven in uw lijst met typen gevoelige informatie en u kunt deze onmiddellijk in uw beleid gebruiken, waarin u opgeeft hoeveel trefwoorden moeten overeenkomen.Paste the identity into your custom sensitive information type's XML and upload it. Now your dictionary will appear in your list of sensitive information types and you can use it right in your policy, specifying how many keywords are required to match.

<Entity id="d333c6c2-5f4c-4131-9433-db3ef72a89e8" patternsProximity="300" recommendedConfidence="85">
      <Pattern confidenceLevel="85">
        <IdMatch idRef="8d2d44b0-91f4-41f2-94e0-21c1c5b5fc9f" />
      </Pattern>
    </Entity>
    <LocalizedStrings>
      <Resource idRef="d333c6c2-5f4c-4131-9433-db3ef72a89e8">
        <Name default="true" langcode="en-us">Diseases</Name>
        <Description default="true" langcode="en-us">Detects various diseases</Description>
      </Resource>
    </LocalizedStrings>

Notitie

Microsoft 365 Information Protection ondersteunt talen voor preview van dubbel-byte-tekensets voor:Microsoft 365 Information Protection supports in preview double byte character set languages for:

  • Vereenvoudigd ChineesChinese (simplified)
  • Traditioneel ChineesChinese (traditional)
  • KoreaksKorean
  • JapansJapanese

Deze ondersteuning is beschikbaar voor typen gevoelige informatie.This support is available for sensitive information types. Zie Ondersteuning voor Information Protection voor releaseopmerkingen bij dubbel-bytetekensets (preview) voor meer informatie.See, Information protection support for double byte character sets release notes (preview) for more information.