Aprender os conceitos de moderação de texto

Artigo
01/18/2024

Use os modelos de moderação de texto do Content Moderator para analisar o conteúdo de texto, como salas de chat, quadros de discussão, chatbots, catálogos de comércio eletrônico e documentos.

A resposta de serviço inclui as informações a seguir:

Conteúdo ofensivo: correspondência baseada em termos com lista interna de termos ofensivos em vários idiomas
Classificação: classificação assistida por computador em três categorias
Dados pessoais
Texto corrigido automaticamente
Texto original
Idioma

Conteúdo ofensivo

Se a API detectar termos ofensivos em qualquer um dos idiomas com suporte, esses termos serão incluídos na resposta. A resposta também contém a localização (Index) no texto original. O ListId no JSON de exemplo a seguir refere-se aos termos encontrados nas listas de termos personalizadas, se disponíveis.

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 0,
        "Term": "<offensive word>"
    }

Observação

Para o parâmetro language, atribua eng ou deixe vazio para ver a resposta de classificação assistida por computador (recurso de visualização). Esse recurso dá suporte ao inglês apenas.

Para a detecção de termos obscenos, use o código ISO 639-3 dos idiomas com suporte listados neste artigo ou deixe vazio.

classificação

O recurso de classificação de texto assistido por computador do Content Moderator suporta somente inglês e ajuda a detectar conteúdo potencialmente indesejado. O conteúdo sinalizado pode ser avaliado como inadequado, dependendo do contexto. Ele transmite a probabilidade de cada categoria. O recurso utiliza um modelo treinado para identificar uma possível linguagem abusiva, depreciativa ou discriminatória. Isso inclui gírias, palavras abreviadas, palavras ofensivas e intencionalmente com ortografia incorreta.

A extração a seguir na extração JSON mostra uma saída de exemplo:

"Classification": {
    "ReviewRecommended": true,
    "Category1": {
        "Score": 1.5113095059859916E-06
    },
    "Category2": {
        "Score": 0.12747249007225037
    },
    "Category3": {
        "Score": 0.98799997568130493
    }
}

Explicação

Category1 refere-se à presença potencial de linguagem que pode ser considerada sexualmente explícita ou para adulto em determinadas situações.
Category2 refere-se à presença potencial de linguagem que pode ser considerada sexualmente sugestiva ou para adulto em determinadas situações.
Category3 refere-se à potencial presença de linguagem que pode ser considerada ofensiva em determinadas situações.
Score fica entre 0 e 1. Quanto maior a pontuação, mais o modelo irá prever que a categoria pode ser aplicável. Esse recurso se baseia em um modelo estatístico, em vez dos resultados codificados manualmente. É recomendável testar com seu próprio conteúdo para determinar como cada categoria se alinha com seus requisitos.
ReviewRecommended é verdadeiro ou falso, dependendo dos limites internos da pontuação. Os clientes devem avaliar se é para usar esse valor ou escolher limites personalizados com base nas políticas de conteúdo.

Dados pessoais

O recurso de dados pessoais detecta a possível presença dessas informações:

Endereço de email
Endereço postal dos EUA
Endereço IP
Número de telefone dos EUA

O exemplo a seguir mostra uma resposta de exemplo:

"pii":{
  "email":[
      {
        "detected":"abcdef@abcd.com",
        "sub_type":"Regular",
        "text":"abcdef@abcd.com",
        "index":32
      }
  ],
  "ssn":[

  ],
  "ipa":[
      {
        "sub_type":"IPV4",
        "text":"255.255.255.255",
        "index":72
      }
  ],
  "phone":[
      {
        "country_code":"US",
        "text":"6657789887",
        "index":56
      }
  ],
  "address":[
      {
        "text":"1 Microsoft Way, Redmond, WA 98052",
        "index":89
      }
  ]
}

Correção automática

Opcionalmente, a resposta de moderação de texto pode retornar o texto com correção automática básica aplicada.

Por exemplo, o texto de entrada a seguir tem um erro de ortografia.

The quick brown fox jumps over the lazzy dog.

Se você especificar a correção automática, a resposta conterá a versão corrigida do texto:

The quick brown fox jumps over the lazy dog.

Criar e gerenciar as listas de termos personalizadas

Embora a lista global de termos padrão funcione muito bem na maioria dos casos, convém filtrar os termos específicos das necessidades da sua empresa. Por exemplo, é possível querer filtrar qualquer marca competitiva das postagens dos usuários.

Observação

Há um limite máximo de 5 listas de termos com cada lista para não exceder 10.000 termos.

O exemplo a seguir mostra a ID da lista correspondente:

"Terms": [
    {
        "Index": 118,
        "OriginalIndex": 118,
        "ListId": 231.
        "Term": "<offensive word>"
    }

O Content Moderator fornece uma API de Lista de Termos com operações para gerenciar listas de termos personalizadas. Inicie com o Console de API de Listas de Termos e use os exemplos de código de API REST. Consulte também o Início rápido do .NET das Listas de Termos, se você estiver familiarizado com Visual Studio e C#.

Próximas etapas

Teste as APIs com o console de API de moderação de texto.