Что такое обнаружение личных сведений (PII) на языке ИИ Azure?

Обнаружение персональных данных — это одна из функций, предлагаемых языком искусственного интеллекта Azure, коллекцией алгоритмов машинного обучения и ИИ в облаке для разработки интеллектуальных приложений, включающих письменный язык. Функция распознавания персональных данных позволяет определять, классифицировать и исправлять конфиденциальную информацию в неструктурированном тексте. Например: номера телефонов, адреса электронной почты и удостоверения личности. Метод использования piI в беседах отличается от других вариантов использования, а статьи для этого использования являются отдельными.

  • Краткие руководства — инструкции по началу работы и отправке запросов в службу.
  • Руководства — содержат инструкции для более специфического или специализированного использования службы.
  • Тематические статьи — подробно описывают функциональность и возможности службы.

Функция распознавания персональных данных существует в двух вариантах.

Стандартный рабочий процесс

Чтобы использовать эту возможность, нужно в приложении передать данные для анализа и обработать полученный от API результат. Анализ выполняется как есть, без добавления настройки модели, используемой для данных.

  1. Создайте ресурс языка ИИ Azure, который предоставляет вам доступ к функциям, предлагаемым языком искусственного интеллекта Azure. Он создает пароль (называемый ключом) и URL-адрес конечной точки, используемый для проверки подлинности запросов API.

  2. Создайте запрос, используя REST API или клиентскую библиотеку для C#, Java, JavaScript или Python. Также можно отправить асинхронные вызовы с пакетным запросом, чтобы объединить в один вызов несколько запросов к разным функциям API.

  3. Отправьте запрос, содержащий текстовые данные. Ключ и конечная точка используются для проверки подлинности.

  4. Выполните потоковую передачу ответа или сохраните его локально.

Поддержка собственных документов

Собственный документ ссылается на формат файла, используемый для создания исходного документа, например Microsoft Word (docx) или переносимого файла документа (pdf). Поддержка собственных документов устраняет необходимость предварительной обработки текста перед использованием возможностей ресурсов языка искусственного интеллекта Azure. В настоящее время поддержка собственных документов доступна для возможности PiiEntityRecognition.

В настоящее время PII поддерживает следующие собственные форматы документов:

Тип файла Расширение файла Описание
Текст .txt Неформатированный текстовый документ.
Adobe PDF .pdf Переносимый документ с форматированным документом.
Microsoft Word .docx Файл документа Microsoft Word.

Дополнительные сведения см. в разделе"Использование собственных документов для обработки языка"

Начало работы с обнаружением PII

Чтобы использовать обнаружение piI, вы отправляете текст для анализа и обрабатываете выходные данные API в приложении. Анализ выполняется как есть, без настройки модели, используемой в данных. Существует два способа использования обнаружения пин-кодов:

Вариант разработки Description
Студия службы "Язык" Language Studio — это веб-платформа, которая позволяет попробовать связывание сущностей с текстовыми примерами без учетной записи Azure и собственных данных при регистрации. Дополнительные сведения см. в кратком руководстве по веб-сайту Или языковой студии Language Studio.
REST API или клиентская библиотека (пакет SDK для Azure) Интеграция обнаружения PII в приложения с помощью REST API или клиентской библиотеки, доступной на различных языках. Дополнительные сведения см. в кратком руководстве по обнаружению piI.

Справочная документация и примеры кода

Как вы используете эту функцию в приложениях, ознакомьтесь со следующей справочной документацией и примерами для языка искусственного интеллекта Azure:

Вариант разработки и язык Справочная документация Примеры
REST API Документация по REST API
C# Документация по C# Примеры C#
Java Документация по Java Примеры для Java
JavaScript Документация по работе с JavaScript. Примеры JavaScript
Python Документация по Python. Примеры для Python

Ответственное применение ИИ

Система ИИ включает не только технологию, но и людей, которые используют ее, людей, пострадавших от нее, и среды развертывания. Ознакомьтесь с примечанием о прозрачности для персональных данных, чтобы узнать больше об ответственном использовании и развертывании искусственного интеллекта в своих системах. Дополнительные сведения см. в следующих статьях:

Пример сценариев

  • Применение меток конфиденциальности. Например, на основе результатов службы обнаружения персональных данных общедоступная метка конфиденциальности может применяться к документам, в которых персональные данные не обнаружены. Для документов, в которых распознаются адреса и номера телефонов США, может применяться метка "конфиденциально". Метка высокого уровня конфиденциальности может использоваться для документов, в которых распознаются номера маршрутизации банка.
  • Отредактировать некоторые категории персональных данных из документов, которые получают более широкий оборот . Например, если записи контактов клиентов доступны для представителей службы поддержки фронта, компания может изменить личную информацию клиента, помимо их имени из версии журнала клиентов, чтобы сохранить конфиденциальность клиента.
  • Отредактируйте личную информацию, чтобы уменьшить бессознательное смещение - например, во время процесса возобновления проверки компании, они могут блокировать имя, адрес и номер телефона, чтобы снизить бессознательный пол или другие предвзятые отношения.
  • Замена персональных данных в исходных данных машинного обучения, чтобы снизить несправедливость. Например, если вы хотите удалить имена, которые могут выявить пол при обучении модели машинного обучения, можно использовать службу для их идентификации и заменить их универсальными заполнителями для обучения моделей.
  • Удаление персональных данных из транскрибирования центра обработки вызовов. Например, если вы хотите удалить имена или другие персональные данные, которые упоминаются в разговоре агента и клиента в сценарии центра обработки вызовов. Служба позволяет выявлять и удалять эти данные.
  • Очистка данных для целей обработки и анализа данных. Службу обнаружения персональных данных можно использовать для подготовки данных для специалистов и инженеров по обработке и анализу данных, чтобы они имели возможность использовать эти данные для обучения своих моделей машинного обучения. Исправление данных, чтобы избежать раскрытия данных клиента.

Следующие шаги

Приступить к использованию функции связывания сущностей можно одним из двух путей:

  • С помощью Language Studio — эта веб-платформа позволяет опробовать некоторые функции языковой службы без написания кода.
  • выполняя запросы к службе с помощью REST API и пакета SDK клиентской библиотеки. Указания см. в этом кратком руководстве.