En savoir plus sur les types d’informations sensibles

L’identification et la classification des éléments sensibles qui sont sous le contrôle de votre organisation est la première étape de la discipline Information Protection. Microsoft Purview offre trois façons d’identifier les éléments afin qu’ils puissent être classés :

  • manuellement par les utilisateurs
  • reconnaissance automatisée des modèles, comme les types d’informations sensibles
  • Machine Learning

Les types d’informations sensibles (SIT) sont des classifieurs basés sur des modèles. Ils détectent des informations sensibles telles que les numéros de sécurité sociale, de carte de crédit ou de compte bancaire pour identifier les éléments sensibles. Pour obtenir la liste complète de tous les SIT, consultez les définitions d’entités des types d’informations sensibles.

Microsoft fournit un grand nombre de SIT préconfigurés ou vous pouvez créer les vôtres.

Les types d’informations sensibles sont utilisés dans

Catégories de types d’informations sensibles

Types d’informations sensibles intégrés

Par défaut, ces SIT sont créés par Microsoft dans la console de conformité. Ces SIT ne peuvent pas être modifiés, mais ils peuvent être utilisés comme modèles et copiés pour créer des types d’informations sensibles personnalisés. Consultez les définitions d’entité de type Informations sensibles pour une liste complète de tous les SIT.

Types d’informations sensibles d’entité nommés

Les SIT d’entité nommée s’affichent également dans la console de conformité par défaut. Ils détectent les noms des personnes, les adresses physiques et les conditions médicales. Ils ne peuvent pas être modifiés ou copiés. Pour plus d’informations, consultez l’article En savoir plus sur les entités nommées . Les SIT d’entité nommée sont de deux types :

un-bundled

Ces SIT d’entité nommées ont un focus plus étroit, comme un seul pays ou une seule classe de termes. Utilisez-les lorsque vous avez besoin d’une stratégie DLP avec une étendue de détection plus étroite. Voir, Exemples de SIT d’entité nommée.

Livré

Les SIT d’entité nommée groupées détectent toutes les correspondances possibles dans une classe, comme toutes les adresses physiques. Utilisez-les comme critères généraux dans vos stratégies DLP pour détecter les éléments sensibles. Voir, Exemples de SIT d’entité nommée.

Types d’informations sensibles personnalisés

Si les types d’informations sensibles préconfigurés ne répondent pas à vos besoins, vous pouvez créer vos propres types d’informations sensibles personnalisés que vous définissez entièrement ou copier l’un des types intégrés et les modifier. Pour plus d’informations, voir Créer un type d’informations sensibles personnalisé dans le Centre de conformité .

Les données exactes correspondent aux types d’informations sensibles

Tous les SIT basés sur EDM sont créés à partir de zéro. Vous les utilisez pour détecter les éléments qui ont des valeurs exactes que vous définissez dans une base de données d’informations sensibles. Pour plus d’informations, consultez l’article En savoir plus sur les types d’informations sensibles basés sur des correspondances de données exactes .

Parties fondamentales d’un type d’informations sensibles

Chaque entité de type d’informations sensibles est définie par les champs suivants :

  • nom : comment le type d’informations sensibles est référencé
  • description : décrit ce que recherche le type d’informations sensibles
  • modèle : un modèle définit ce qu’un type d’informations sensibles détecte. Il se compose des composants suivants.
    • Élément principal : élément principal recherché par le type d’informations sensibles. Il peut s’agir d’une expression régulière avec ou sans validation de somme de contrôle, d’une liste de mots clés, d’un dictionnaire de mots clés ou d’une fonction.
    • Élément de soutien : éléments qui servent de preuves qui contribuent à accroître la confiance de la correspondance. Par exemple, le mot clé « SSN » à proximité d’un numéro SSN. Il peut s’agir d’une expression régulière avec ou sans validation de somme de contrôle, liste de mots clés, dictionnaire de mots clés.
    • Niveau de confiance : les niveaux de confiance (élevé, moyen, faible) reflètent la quantité de preuves à l’appui détectées avec l’élément principal. Plus un élément contient de preuves à l’appui, plus la confiance qu’un élément correspondant contient contient les informations sensibles que vous recherchez.
    • Proximité : nombre de caractères entre l’élément principal et l’élément de prise en charge.

Diagramme des preuves corroborantes et de la fenêtre de proximité.

Exemple de type d’informations sensibles

Numéro d’identité nationale (DNI) en Argentine

Format

Huit chiffres séparés par des points

Modèle

Huit chiffres :

  • deux chiffres
  • un point
  • trois chiffres
  • un point
  • trois chiffres

Somme de contrôle

Non

Définition

Une stratégie DLP a une confiance moyenne ayant détecté ce type d’informations sensibles si, dans une proximité de 300 caractères :

  • L’expression régulière Regex_argentina_national_id trouve un contenu qui correspond au modèle.
  • Un mot clé figurant dans la liste Keyword_argentina_national_id est trouvé.
<!-- Argentina National Identity (DNI) Number -->
<Entity id="eefbb00e-8282-433c-8620-8f1da3bffdb2" recommendedConfidence="75" patternsProximity="300">
   <Pattern confidenceLevel="75">
      <IdMatch idRef="Regex_argentina_national_id"/>
      <Match idRef="Keyword_argentina_national_id"/>
  </Pattern>
</Entity>

Mots-clés

Keyword_argentina_national_id

  • Argentina National Identity number
  • Identité
  • Carte d’identité nationale d’identification
  • Dni
  • Registre national des personnes de la carte réseau
  • Documento Nacional de Identidad
  • Registro Nacional de las Personas
  • Identidad
  • Identificación

En savoir plus sur les niveaux de confiance

Dans une définition d’entité de type d’informations sensibles, le niveau de confiance reflète la quantité de preuves de prise en charge détectées en plus de l’élément principal. Plus un élément contient de preuves à l’appui, plus la confiance qu’un élément correspondant contient contient les informations sensibles que vous recherchez. Par exemple, les correspondances avec un niveau de confiance élevé contiendront des preuves plus justifiantes à proximité de l’élément principal, tandis que les correspondances avec un niveau de confiance faible contiendraient peu ou pas de preuves à l’appui à proximité étroite.

Un niveau de confiance élevé retourne le moins de faux positifs, mais peut entraîner plus de faux négatifs. Les niveaux de confiance faibles ou moyens retournent plus de faux positifs, mais peu ou pas de faux négatifs.

  • faible confiance : les éléments mis en correspondance contiennent le moins de faux négatifs, mais le plus grand nombre de faux positifs. Une confiance faible retourne toutes les correspondances de confiance faibles, moyennes et élevées. Le niveau de confiance faible a une valeur de 65.
  • confiance moyenne : les éléments mis en correspondance contiennent une quantité moyenne de faux positifs et de faux négatifs. La confiance moyenne retourne toutes les correspondances de confiance moyennes et élevées. Le niveau de confiance moyen a une valeur de 75.
  • confiance élevée : les éléments mis en correspondance contiennent le moins de faux positifs, mais le plus grand nombre de faux négatifs. Une confiance élevée retourne uniquement des correspondances de confiance élevées et a une valeur de 85.

Vous devez utiliser des modèles de niveau de confiance élevés avec des nombres faibles, par exemple cinq à dix, et des modèles de confiance faible avec des nombres plus élevés, par exemple 20 ou plus.

Notes

Si vous avez des stratégies existantes ou des types d’informations sensibles personnalisés (SIT) définis à l’aide de niveaux de confiance basés sur les nombres (également connus sous le nom de précision), ils sont automatiquement mappés aux trois niveaux de confiance discrets ; confiance faible, confiance moyenne et confiance élevée dans l’interface utilisateur security @ Compliance Center.

  • Toutes les stratégies avec une précision minimale ou des modèles SIT personnalisés avec des niveaux de confiance compris entre 76 et 100 seront mappées à une confiance élevée.
  • Toutes les stratégies avec une précision minimale ou des modèles SIT personnalisés avec des niveaux de confiance compris entre 66 et 75 seront mappées à une confiance moyenne.
  • Toutes les stratégies avec une précision minimale ou des modèles SIT personnalisés avec des niveaux de confiance inférieurs ou égaux à 65 seront mappées à une faible confiance.

Création de types d’informations sensibles personnalisés

Vous pouvez choisir parmi plusieurs options pour créer des types d’informations sensibles personnalisés dans le Centre de conformité.

Notes

Des niveaux de confiance améliorés sont disponibles pour une utilisation immédiate dans les services de protection contre la perte de données Microsoft Purview, la protection des informations, la conformité des communications, la gestion du cycle de vie des données et la gestion des enregistrements. Information Protection prend désormais en charge les langues de jeu de caractères sur deux octets pour :

  • Chinois (simplifié)
  • Chinois (traditionnel)
  • Korean
  • Japanese

Cette prise en charge est disponible pour les types d’informations sensibles. Pour plus d’informations, consultez la prise en charge de la protection des informations pour les jeux de caractères doubles octets .

Conseil

Pour détecter les modèles contenant des caractères chinois/japonais et des caractères d’octet unique ou pour détecter les modèles contenant du chinois/le japonais et l’anglais, définissez deux variantes du mot clé ou de regex.

  • Par exemple, pour détecter un mot clé tel que « 机密的document », utilisez deux variantes du mot clé ; l’un avec un espace entre le texte japonais et anglais et l’autre sans espace entre le texte japonais et l’anglais. Par conséquent, les mots clés à ajouter dans le SIT doivent être « 机密的 document » et « 机密的document ». De la même façon, pour détecter une expression « 東京オリンピック2020 », deux variantes doivent être utilisées : « 東京オリンピック 2020 » et « 東京オリンピック2020 ».

Avec les caractères chinois/japonais/double octets, si la liste des mots clés/expressions contient également des mots non chinois/japonais (comme l’anglais uniquement), vous devez créer deux dictionnaires/listes de mots clés. Un pour les mots clés contenant des caractères chinois/japonais/sur deux octets et un autre pour l’anglais uniquement.

  • Par exemple, si vous souhaitez créer un dictionnaire/liste de mots clés avec trois expressions « Hautement confidentiel », « 機密性が高い » et « 机密的document », vous devez créer deux listes de mots clés.
    1. Extrêmement confidentiel
    2. Document 機密性が高い, 机密的 et document 机密的

Lorsque vous créez une regex en utilisant un trait d'union à double octet ou un point à double octet, assurez-vous d'échapper les deux caractères comme on le ferait pour un trait d'union ou un point dans une regex. Voici un exemple regex pour référence :

(?<!\d)([4][0-9]{3}[\-?\-\t]*[0-9]{4}

Nous vous recommandons d’utiliser une correspondance de chaîne au lieu d’une correspondance de mot dans une liste de mots clés.

Pour plus d’informations

Pour savoir comment utiliser des types d’informations sensibles pour se conformer aux réglementations de confidentialité des données, consultez Déployer la protection des informations pour les réglementations de confidentialité des données avec Microsoft 365 (aka.ms/m365dataprivacy).