Подробные сведения о пользовательских типах конфиденциальной информации с точным совпадением данных

Типы конфиденциальной информации (SIT) используются для идентификации конфиденциальных данных, чтобы предотвратить их непреднамеренное или неуместное совместное использование. Они также используются для поиска соответствующих данных в обнаружении электронных данных и применения действий управления к определенным типам информации. Вы определяете настраиваемый SIT на основе:

  • шаблоны;
  • ключевое слово доказательства, такие как сотрудник, номер социального страхования или идентификатор
  • близкое расположение символов, свидетельствующее об определенном шаблоне;
  • доверительные уровни.

Но что делать, если вам нужен пользовательский sit, который использует точные или почти точные значения данных, а не тот, который находит совпадения на основе универсальных шаблонов? С помощью классификации на основе точного сопоставления данных (EDM) можно создать пользовательский тип конфиденциальной информации, предназначенный для:

  • динамика и простое обновление;
  • приводит к уменьшению числа ложноположительных результатов
  • поддерживает структурированные конфиденциальные данные;
  • более безопасно обрабатывать конфиденциальную информацию, не делясь ею ни с кем, включая Майкрософт
  • использование с несколькими облачными службами Майкрософт.

Совет

Если вы не являетесь клиентом E5, используйте 90-дневную пробную версию решений Microsoft Purview, чтобы узнать, как дополнительные возможности Purview могут помочь вашей организации управлять безопасностью данных и соответствием требованиям. Начните сейчас, перейдя в центр пробных версий на портале соответствия требованиям Microsoft Purview. Сведения о регистрации и условиях пробной версии.

Классификация на основе EDM позволяет создавать настраиваемые SIT, ссылающиеся на точные значения в базе данных с конфиденциальной информацией. База данных может обновляться ежедневно и содержать до 100 миллионов строк данных. Таким образом, по мере того как сотрудники, пациенты и клиенты приходят и уходят, а по мере изменения записей пользовательские типы конфиденциальной информации остаются актуальными и применимыми. Кроме того, вы можете использовать классификацию на основе EDM с политиками, такими как политики Защита от потери данных Microsoft Purview или политики файлов Microsoft Cloud App Security.

На следующей схеме показаны основные принципы классификации EDM:

Классификация на основе EDM.

Примечание.

Защита информации Microsoft Purview поддерживает следующие языки, использующие двухбайтовые наборы символов:

  • Китайский (упрощенное письмо)
  • Китайский (традиционное письмо)
  • Корейский
  • Японский

Эта поддержка доступна для конфиденциальных типов информации. Дополнительные сведения см. в разделе Поддержка защиты информации для двухбайтовых наборов символов: Заметки о выпуске (предварительная версия).

Что отличается в EDM SIT

При работе с EDM SIT полезно понять несколько уникальных для них понятий.

Схема

Схема — это XML-файл. Microsoft Purview использует схему для определения того, содержат ли данные строки, соответствующие тем, которые предназначены для обнаружения конфиденциальных данных.

XML-файл схемы определяет:

  • Имя схемы, позже называемое Хранилищем данных.
  • Имена полей, которые содержатся в таблице источников конфиденциальной информации. Существует сопоставление 1:1 имен полей схемы с именами столбцов в таблице источника конфиденциальной информации.
  • Полям подтверждающих доказательств требуется режим соответствия с несколькими токенами.
  • Какие поля данных доступны для поиска.
  • Поддерживаются ли настраиваемые совпадения для каждого поля. Настраиваемое совпадение — это сопоставление с параметрами, которые изменяют поиск, например игнорирование разделителей и регистр в искомых значениях.

Таблица источников конфиденциальной информации

Таблица источников конфиденциальной информации содержит значения, которые ищет EDM SIT. Таблица состоит из столбцов и строк. Заголовки столбцов — это имена полей, строки — это экземпляры элементов, а каждая ячейка в строке содержит значения для этого экземпляра элемента для этого поля.

Ниже приведен простой пример таблицы источников конфиденциальной информации.

Имя Фамилия Date of Birth
Исаия Лангер 05-05-1960
Ана Боумэн 11-24-1971
Оскар Прихода 02-12-1998

Пакет правил

Каждый тип конфиденциальной информации имеет пакет правил. Пакет правил используется в EDM SIT для определения различных компонентов EDM SIT. В следующей таблице представлено описание каждого компонента.

Компонент Описание
ПОИСКПОЗ Указывает основной элемент (поле данных), который будет использоваться в точном поиске. Это может быть регулярное выражение с проверкой контрольной суммы или без него, список ключевое слово, словарь ключевое слово или функция.
Классификация Указывает соответствие типа конфиденциальной информации, которое активирует поиск EDM.
Вспомогательные элементы Элементы, которые при их обнаружении предоставляют доказательства, помогающие повысить достоверность совпадения. Например, появление фамилии в непосредственной близости от фактического номера социального страхования. Вспомогательным элементом может быть регулярное выражение с проверкой контрольной суммы или без нее, список ключевое слово, словарь ключевое слово или совпадение строк с одним или несколькими токенами.
Уровень вероятности
(Высокий, Средний, Низкий)
Указание того, сколько подтверждающих доказательств обнаружено в дополнение к основному элементу. Чем больше подтверждающих доказательств содержит элемент, тем выше уверенность в том, что соответствующий элемент содержит конфиденциальную информацию, которую вы ищете. Дополнительные сведения об уровнях достоверности см. в разделе Основные части типа конфиденциальной информации.
Компонент ранжирования с учетом расположения Количество символов между основным и вспомогательным элементом.

Вы предоставляете собственную схему и данные

Microsoft Purview поставляется со многими встроенными sit , которые являются предопределенными. Эти SIT поставляются со схемами, шаблонами REGEX, ключевыми словами и уровнями достоверности. Однако при использовании EDM SIT вы отвечаете за определение схемы, а также первичных и вторичных полей, определяющих конфиденциальные элементы. Так как схема, первичные и вторичные значения данных являются очень конфиденциальными, их шифруется с помощью хэш-функции , которая включает случайно созданное или самостоятельно предоставленное значение соли . В службу отправляются только хэшированные значения, поэтому конфиденциальные данные никогда не будут открыты.

Основные и вторичные вспомогательные элементы

При создании EDM SIT определяется поле первичного элемента в пакете правил. Затем EDM выполняет поиск основного элемента во всем содержимом. Чтобы EDM могла обнаруживать их, первичные элементы должны быть обнаруживаемы через существующий sit.

Примечание.

Полный список доступных sit., см. в разделе Определения сущностей типа конфиденциальной информации.

Необходимо найти встроенный sit, который обнаруживает конфиденциальную информацию, которую должен обнаружить EDM SIT. Например, если в схеме EDM SIT в качестве основного элемента используется номер социального страхования США , то при создании схемы EDM вы связали ее с номером социального страхования США (SSN) SIT. Для обнаружения первичные элементы должны соответствовать определенному шаблону.

При обнаружении первичного элемента в сканируемом элементе EDM ищет вторичные элементы (также называемые вспомогательными элементами). В отличие от первичных элементов, вторичные элементы имеют возможность следовать шаблону. Если вторичные элементы содержат несколько маркеров, эти элементы должны быть связаны с sit, который может обнаружить это содержимое или который можно настроить для сопоставления с несколькими токенами. Во всех случаях вторичные элементы должны находиться в определенном расположении к первичному элементу, чтобы обнаружить совпадение.

Принцип работы сопоставления

EDM работает путем сравнения строк в документах и сообщениях электронной почты со значениями в таблице источника конфиденциальной информации. Это сравнение используется для определения наличия значений в сканируемом содержимом в таблице. Определение выполняется путем сравнения односторонних криптографических хэшей.

Совет

Вы можете использовать как EDM SIT, так и предопределенные SIT, на которых они основаны, вместе в правилах защиты от потери данных, чтобы улучшить обнаружение конфиденциальных данных. Используйте EDM SIT с более высокими уровнями достоверности и предопределенный SIT с более низкими уровнями достоверности. Например, используйте EDM SIT, который ищет номер социального страхования и другие вспомогательные данные со строгими требованиями с высокой достоверностью. Если настроено соответствие с высокой достоверностью, EDM создает совпадение защиты от потери данных при обнаружении только нескольких экземпляров. Чтобы активировать сопоставление защиты от потери данных при обнаружении большего числа вхождений, используйте встроенный sit, например номер социального страхования США.

Как вспомогательные элементы работают с EDM

Как описано в разделе Что отличается в EDM SIT, вспомогательные элементы являются элементами, которые при их обнаружении предоставляют доказательства, помогающие повысить достоверность совпадения.

Благодаря поддержке SIT EDM можно искать и обнаруживать вспомогательные элементы, состоящие из нескольких полей. Вспомогательные совпадения элементов могут состоять из ключевое слово списков, ключевое слово словарей, отдельных буквенно-цифровых строк или строк с несколькими токенами.

Рассмотрим пример. Предположим, что вы хотите обнаружить номера социального страхования в США. Чтобы повысить достоверность соответствия, вспомогательные элементы включают first name, last nameи date of birth (DoB). Таким образом, исходная таблица выглядит примерно так:

SSN FirstName LastName Dob
987-65-4320 Исаия Лангер 05-05-1960
078-05-1120 Ана Боумэн 11-24-1971
219-09-9999 Оскар Прихода 02-12-1998

При поиске подходящих вспомогательных элементов в защищенном файле EDM SIT проверяет наличие каждого вспомогательного элемента (как по отдельности, так и в сочетании) после обнаружения первичного элемента.

Например, предположим, что обнаружен первый номер социального страхования. Затем функция точного сопоставления данных ищет сочетания вспомогательных элементов во всех столбцах исходной таблицы:

  • Исаия
  • Лангер
  • 05-05-1960
  • Виталий Токарев
  • Исайя 05-05-1960
  • Лангер 05-05-1960
  • Исайя Лангер 05-05-1960

Сопоставление с несколькими токенами

Сопоставление с несколькими токенами предназначено для использования, когда поле подтверждения доказательства содержит значения нескольких токенов, но сопоставление таких значений с SIT не так просто выполнить. Например, если у вас есть Address поле, содержащее такие значения, как 1 Microsoft Way, Redmond, WA или 123 Main Street, New York, NY.

Эта функция позволяет EDM сравнивать хэши последовательных слов в содержимом с хэшами полей с несколькими токенами в источнике данных. Если они идентичны, EDM создает совпадение. Таким образом, EDM может обнаруживать поля с несколькими токенами, такие как имена, адреса, медицинские условия или любые другие поля подтверждающих доказательств, которые могут содержать более одного слова, при условии, что они помечены как многокомпонентные в схеме EDM.

Например, если выбрать сопоставление с несколькими токенами в качестве параметра сопоставления, вы получите два дополнительных преимущества:

  1. Политики будут обнаруживать содержимое, соответствующее нескольким полям в столбцах исходной таблицы.
  2. Исходная таблица может содержать поля со строковыми значениями, состоящими из предварительно настроенного количества слов. В следующей таблице показан пример исходной таблицы:
SSN имя; адрес;
987-65-4320 Виталий Токарев 1432 Линкольн-роуд
078-05-1120 Ана Боуман 8250 Первая улица
219-09-9999 Оскар Вард 424 205th Avenue

При сопоставлении с несколькими токенами поля Name и Street Address сопоставляются как как независимые строки вспомогательных элементов, так и в сочетании как отдельные поля. Таким образом, если они сопоставляются как строки с несколькими токенами в качестве вспомогательных элементов для номера социального страхования 987-65-4320, совпадения будут следующими:

  • Виталий Токарев
  • 1432 Линкольн-роуд

При сопоставлении в сочетании совпадение выглядит следующим образом:

  • Исайя Лангер + 1432 Линкольн-роуд

Сопоставление с несколькими токенами также поддерживается для двухбайтовых наборов символов, которые обычно не используют пробелы для разделения слов.

Службы, поддерживаемые EDM

Служба Расположения
Защита от потери данных в Microsoft Purview — SharePoint
— OneDrive
— чат
Teams — Exchange Online
— устройства
Microsoft Defender for Cloud Apps — SharePoint
— OneDrive
Автоматическая маркировка (на стороне службы) — SharePoint
— OneDrive
— Exchange Online
Автоматическая маркировка (на стороне клиента) — Word
— Excel
— PowerPoint
— классические клиенты Exchange
Ключ, управляемый клиентом — SharePoint
— OneDrive
— чат
Teams — Exchange Online
— Word
— Excel
— PowerPoint
— классические клиенты
Exchange — устройства
Обнаружение электронных данных — SharePoint
— OneDrive
— чат
Teams — Exchange Online
— Word
— Excel
— PowerPoint
— классические клиенты Exchange
Управление внутренними рисками — SharePoint
— OneDrive
— чат
Teams — Exchange Online
— Word
— Excel
— PowerPoint
— классические клиенты Exchange

См. также