O que é detecção de Informações de Identificação Pessoal (PII) na Linguagem de IA do Azure?

A detecção de idioma é um dos recursos oferecidos pela Linguagem de IA do Azure, uma coleção de aprendizado de máquina e algoritmos de IA na nuvem para o desenvolvimento de aplicativos inteligentes que envolvem linguagem escrita. O recurso de detecção de PII pode identificar, categorizar e redigir informações confidenciais em texto não estruturado. Por exemplo: números de telefone, endereços de e-mail e formulários de identificação. O método para usar PII em conversas é diferente do de outros casos de uso e os artigos para esse uso são separados.

O PII entra em duas formas:

Fluxo de trabalho típico

Para usar esse recurso, você envia dados para análise e manipula a saída da API em seu aplicativo. A análise é realizada no estado em que se encontra, sem nenhuma personalização adicionada ao modelo usado nos seus dados.

  1. Crie um recurso da Linguagem de IA do Azure, que concede a você acesso aos recursos oferecidos pela Linguagem de IA do Azure para o idioma. Gera uma senha (chamada "chave") e uma URL de ponto de extremidade que você usa para autenticar solicitações de API.

  2. Crie uma solicitação usando a API REST ou a biblioteca de cliente para C#, Java, JavaScript e Python. Você também pode enviar chamadas assíncronas com uma solicitação em lote para combinar solicitações de API para vários recursos em uma só chamada.

  3. Envie a solicitação que contém seus dados de texto. A chave e o ponto de extremidade são usados para autenticação.

  4. Transmita por streaming ou armazene a resposta localmente.

Suporte a documentos nativos

Um documento nativo se refere ao formato de arquivo usado para criar o documento original, como Microsoft Word (docx) ou um formato portátil de documento (pdf). O suporte a documentos nativos elimina a necessidade de um pré-processamento de texto antes de usar as funcionalidades do recurso Linguagem de IA do Azure. Atualmente, o suporte a documentos nativos está disponível para a funcionalidade PiiEntityRecognition.

Atualmente, o PII dá suporte aos seguintes formatos de documentos nativos:

Tipo de arquivo Extensão de arquivo Descrição
Texto .txt Um documento de texto não formatado.
Adobe PDF .pdf Um documento formatado em formato portátil de documento.
Microsoft Word .docx Um arquivo de documento do Microsoft Word.

Para obter mais informações, confiraUsar documentos nativos para processamento de idiomas

Introdução à detecção de PII

Para usar a detecção de PII, você envia um texto para análise e se encarrega do resultado da API no seu aplicativo. A análise é realizada no estado em que se encontra, sem nenhuma personalização para o modelo usado nos seus dados. Há duas maneiras de usar a detecção de PII:

Opção de desenvolvimento Descrição
Language Studio O Language Studio é uma plataforma baseada na Web que permite que você experimente a vinculação de entidade com exemplos de texto sem uma conta do Azure, e seus próprios dados quando você se inscreve. Para obter mais informações, confira o site do Language Studio ou o início rápido do Language Studio.
API REST ou biblioteca de clientes (SDK do Azure) Integre a detecção de PII aos seus aplicativos usando a API REST, ou a biblioteca de clientes disponível em diversos idiomas. Para saber mais, confira o guia de início rápido da detecção de PII.

Documentação de referência e exemplos de código

Quando usar esse recurso nos seus aplicativos, confira a seguinte documentação de referência e as amostras de Linguagem de IA do Azure:

Opção/idioma de desenvolvimento Documentação de referência Exemplos
API REST Documentação da API REST
C# Documentação do C# Exemplos do C#
Java Documentação do Java Exemplos do Java
JavaScript Documentação do JavaScript Exemplos de JavaScript
Python Documentação do Python Exemplos em Python

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que foi implantada. Leia a nota de transparência sobre PII para saber mais sobre o uso responsável de IA e a implantação em seus sistemas. Para obter mais informações, consulte os seguintes artigos:

Cenários de exemplo

  • Aplicar rótulos de confidencialidade – por exemplo, com base nos resultados do serviço PII, um rótulo de confidencialidade pública pode ser aplicado a documentos em que nenhuma entidade PII é detectada. Para documentos em que endereços e números de telefone dos EUA são reconhecidos, um rótulo confidencial pode ser aplicado. Um rótulo altamente confidencial pode ser usado para documentos em que os números de roteamento bancário são reconhecidos.
  • Rasurar algumas categorias de informações pessoais de documentos que obtêm circulação mais ampla — por exemplo, se os registros de contato do cliente estiverem acessíveis para representantes de atendimento da linha de frente, talvez a empresa queira rasurar da versão do histórico do cliente as informações pessoais, com exceção do nome, para preservar a privacidade do cliente.
  • Rasurar informações pessoais para reduzir o preconceito inconsciente — por exemplo, durante o processo de revisão de currículo por uma empresa, pode ser desejável bloquear o nome, endereço e número de telefone para ajudar a reduzir o preconceito inconsciente de gênero ou outros.
  • Substitua informações pessoais nos dados de origem para aprendizado de máquina para reduzir a injustiça – por exemplo, se você quiser remover nomes que possam revelar gênero ao treinar um modelo de machine learning, você poderá usar o serviço para identificá-los e substituí-los por espaços reservados genéricos para treinamento de modelo.
  • Remover informações pessoais da transcrição do call center – por exemplo, se você quiser remover nomes ou outros dados PII que ocorrem entre o agente e o cliente em um cenário de call center. Você pode usar o serviço para identificá-los e removê-los.
  • Limpeza de dados para ciência de dados – o PII pode ser usado para preparar os dados para que cientistas de dados e engenheiros possam usar esses dados para treinar seus modelos de aprendizado de máquina. Redigir os dados para garantir que os dados do cliente não sejam expostos.

Próximas etapas

Há duas maneiras de começar a usar o recurso de vinculação de entidade:

  • Language Studio, que é uma plataforma baseada na Web que permite experimentar vários recursos do serviço de Linguagem sem a necessidade de escrever código.
  • O artigo de início rápido para obter instruções de como fazer solicitações para o serviço usando a API REST e o SDK da biblioteca de clientes.