Сведения об оптическом распознавании символов в Microsoft Purview

Сканирование оптического распознавания символов (OCR) позволяет Microsoft Purview сканировать содержимое на изображениях на наличие конфиденциальной информации. Необязательная функция проверки OCR сначала включается на уровне клиента. После включения выберите расположения, в которых нужно сканировать изображения. Сканирование изображений доступно для устройств Exchange, SharePoint, OneDrive, Teams и Windows. После настройки параметров OCR существующие политики защиты от потери данных (DLP), управления записями и управления внутренними рисками (IRM) применяются к изображениям и текстовому содержимому. Например, предположим, что вы настроили содержимое условия защиты от потери данных , содержащее конфиденциальную информацию и включили классификатор данных, например тип конфиденциальной информации "Кредитная карта" (SIT). В этом случае Microsoft Purview сканирует кредит карта числа как в тексте, так и на изображениях во всех выбранных расположениях.

Обзор рабочего процесса

Этап Требуемые параметры
Этап 1. При необходимости создайте подписку Azure Если у вашей организации еще нет подписки Azure с оплатой по мере использования для клиента, глобальный администратор должен начать с создания учетной записи Azure.
Этап 2. Настройте выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Ваш глобальный администратор или администратор SharePoint должен следовать инструкциям в разделе Настройка Microsoft Syntex выставления счетов в Azure, чтобы добавить подписку на OCR.
Этап 3. Настройка параметров проверки OCR Администратор соответствия требованиям вашей организации настраивает параметры OCR для клиента.

Этап 1. Предварительные требования

Чтобы использовать проверку OCR, глобальный администратор вашей организации должен убедиться, что подписка Azure с оплатой по мере использования имеется. Если нет, они должны настроить это, следуя инструкциям в разделе Создание начальных подписок Azure.

Этап 2. Настройка выставления счетов

При включении распознавания текста все типы конфиденциальной информации и обучаемые классификаторы могут обнаруживать символы, которые находятся на изображениях.

Так как это необязательная функция, глобальный администратор должен настроить выставление счетов с оплатой по мере использования, чтобы включить распознавание текста. Чтобы добавить подписку на OCR, ознакомьтесь с инструкциями в разделе Настройка Microsoft Syntex выставления счетов в Azure.

Примечание.

После ввода сведений о выставлении счетов в Microsoft Syntex администратор соответствия требованиям может настроить OCR в Microsoft Purview без каких-либо дополнительных требований к настройке или лицензированию.

Сведения о ценах OCR с оплатой по мере использования см. на странице Настройка Microsoft Syntex выставления счетов в Azure.

Отчисления

Плата за использование OCR составляет 1,00 долл. США за каждые 1000 отсканированных элементов. Каждое отсканированное изображение считается одной транзакцией. Это означает, что изолированные изображения (JPEG, JPG, PNG, BMP или TIFF) считаются одной транзакцией. Это также означает, что плата за каждую страницу в PDF-файле взимается отдельно. Например, если в PDF-файле есть 10 страниц, функция OCR-сканирования PDF-файла будет учитываться как 10 отдельных проверок.

Примечание.

Чтобы снизить затраты на распознавание текста, плата за сканирование каждого уникального изображения взимается только один раз.

Небольшие изображения, такие как логотипы и подписи, отправленные по электронной почте через Microsoft Exchange, сканируются и выставляются только один раз за уникальное изображение для всех пользователей клиента. Для всех последующих экземпляров результаты предыдущей проверки будут использоваться повторно.

Кроме того, каждое отсканированное изображение можно использовать в любом количестве политик защиты от потери данных, управления внутренними рисками, автоматической маркировки и управления записями без дополнительной платы.

Важно!

Сведения о требованиях Adobe к использованию функций Защита от потери данных Microsoft Purview (DLP) с PDF-файлами см. в статье Adobe: поддержка Защита информации Microsoft Purview в Acrobat.

Чтобы просмотреть счет, следуйте инструкциям, описанным в разделе Мониторинг использования Microsoft Syntex с оплатой по мере использования.

Оценка счета

Когда вы впервые начнете использовать OCR, ограничьте использование только несколькими людьми и применимыми рабочими нагрузками. Через некоторое время вы можете просмотреть счет в Azure и просмотреть статистику использования & расходов за каждый день. Оттуда вы можете экстраполировать затраты для полного набора пользователей. Кроме того, вы можете использовать тег "рабочая нагрузка" в управлении затратами Azure, чтобы просмотреть разбивку использования на рабочую нагрузку.

Этап 3. Настройка параметров OCR

  1. В Портал соответствия требованиям Microsoft Purview перейдите в раздел Параметры.
  2. Выберите Оптическое распознавание символов (OCR), чтобы ввести параметры конфигурации OCR.
  3. Выберите расположения, в которых вы хотите сканировать изображения.
  4. Выберите группы рассылки, которые нужно включить или исключить из сканирования OCR.
  5. Нажмите кнопку Готово

Поддерживаемые расположения и решения перечислены в таблице ниже.

Разрешения

Учетная запись, используемая для создания и развертывания политик, должна быть членом одной из этих групп ролей.

  • Администратор соответствия требованиям
  • Администратор данных о соответствии требованиям
  • Глобальный администратор
  • Защита информации
  • Администратор Information Protection

Примечание.

Поддерживаемые расположения и решения

Расположение Поддерживаемые решения
Exchange Защита от потери данных

Защита информации: политики автоматического присвоения меток

Управление записями: автоматическое применение политик меток хранения1
Сайты SharePoint Защита от потери данных

Управление внутренними рисками2

Управление записями: автоматическое применение политик меток хранения1
Учетные записи OneDrive Защита от потери данных

Управление записями: автоматическое применение политик меток хранения1
сообщения в чатах и каналах Teams Защита от потери данных

Управление внутренними рисками2
Устройства Защита от потери данных

Управление внутренними рисками2

1 Поддерживает ключевые слова и типы конфиденциальной информации.
2 Учитывает типы конфиденциальной информации и обучаемые классификаторы, присутствующие на изображениях, для оценки рисков.


Какие типы файлов поддерживаются?

Эта функция поддерживает сканирование изображений в следующих типах файлов с указанными требованиями:

Поддерживаемые типы файлов Требования к образу
JPEG, JPG, PNG, BMP, TIFF и PDF (только изображение) Размеры файлов: Размер файлов изображений не должен превышать 20 МБ для Exchange и Teams. Для конечных точек SharePoint, OneDrive и Windows максимальный размер файла изображения составляет 50 МБ.

Разрешение изображения: Разрешение изображения должно быть не менее 50 x 50 пикселей и не больше 16 000 x 16 000 пикселей.

Важно!

  • Сканируются только изображения, отправленные после включения распознавания текста.
  • Проверка OCR выполняется как входящей электронной почты (от пользователей за пределами организации), так и от исходящих сообщений (от пользователей внутри организации). Чтобы ограничить сканирование OCR только исходящими письмами, измените параметры OCR с область по умолчанию всех групп рассылки на конкретные группы рассылки и укажите внутренние группы рассылки, которые требуется сканировать. Сведения об изменении этой конфигурации см. в разделе Этап 3. Настройка параметров OCR.
  • Советы по политике защиты от потери данных не поддерживаются для образов в Exchange.
  • Если исключить путь в параметрах защиты от потери данных конечной точки, OCR не будет сканировать изображения в этих папках.
  • Если функция распознавания текста включена для устройств Windows, устройства начинают отправлять сообщения в облако для сканирования. Ограничение пропускной способности по умолчанию составляет 1024 МБ данных на устройство в день. OCR останавливает сканирование изображений после достижения этого ежедневного ограничения. Если вы хотите продолжить сканирование изображений, можно увеличить ограничение пропускной способности.

Какие языки поддерживаются?

Сканирование OCR поддерживает более 150 языков.

Сводка

См. также