Analisar Texto (API REST do Azure AI Search)

O Analisar API mostra como um analisador divide o texto em tokens. Ele destina-se a testes interativos para que você possa ver como um determinado analisador tokenizará uma entrada de cadeia de caracteres.

POST https://[service name].search.windows.net/indexes/[index name]/analyze?api-version=[api-version]
    Content-Type: application/json
    api-key: [admin key]

Para especificar um analisador usado durante a indexação e a execução da consulta, defina a propriedade analyzer em campos de cadeia de caracteres no índice.

Parâmetros de URI

Parâmetro Descrição
nome do serviço Obrigatórios. Defina isso como o nome exclusivo definido pelo usuário do serviço de pesquisa.
nome do índice Obrigatórios. O URI da solicitação especifica o nome do índice que contém o campo que você deseja analisar.
api-version Obrigatórios. A versão estável atual é api-version=2020-06-30. Confira Versões de API para obter mais versões.

Cabeçalhos de solicitação

A tabela a seguir descreve os cabeçalhos de solicitação necessários e opcionais

Campos Descrição
Tipo de conteúdo Obrigatórios. Defina-o como application/json
chave de API Opcional se você estiver usando funções do Azure e um token de portador for fornecido na solicitação, caso contrário, uma chave será necessária. Uma chave de api é uma cadeia de caracteres exclusiva gerada pelo sistema que autentica a solicitação para o serviço de pesquisa. As solicitações do analisador devem incluir um api-key cabeçalho definido como sua chave de administrador (em vez de uma chave de consulta). Confira Conectar-se ao Azure AI Search usando a autenticação de chave para obter detalhes.

Corpo da solicitação

{
  "text": "Text to analyze",
  "analyzer": "analyzer_name"
}

ou

{
  "text": "Text to analyze",
  "tokenizer": "tokenizer_name",
  "tokenFilters": (optional) [ "token_filter_name" ],
  "charFilters": (optional) [ "char_filter_name" ]
}

O analyzer_name, tokenizer_nametoken_filter_name e char_filter_name precisam ser nomes válidos de analisadores predefinidos ou personalizados, tokenizers, filtros de token e filtros char para o índice. Para saber mais sobre o processo de análise lexical, confira Análise no Azure AI Search.

Resposta

Código de status: 200 OK é retornado para uma resposta bem-sucedida.

O corpo da resposta está no seguinte formato:

    {
      "tokens": [
        {
          "token": string (token),
          "startOffset": number (index of the first character of the token),
          "endOffset": number (index of the last character of the token),
          "position": number (position of the token in the input text)
        },
        ...
      ]
    }

Exemplos

O corpo da solicitação inclui a cadeia de caracteres e o analisador que você deseja usar.

     {
       "text": "The quick brown fox",
       "analyzer": "standard"
     }

A resposta mostra os tokens emitidos pelo analisador para a cadeia de caracteres fornecida.

{
    "tokens": [
        {
            "token": "the",
            "startOffset": 0,
            "endOffset": 3,
            "position": 0
        },
        {
            "token": "quick",
            "startOffset": 4,
            "endOffset": 9,
            "position": 1
        },
        {
            "token": "brown",
            "startOffset": 10,
            "endOffset": 15,
            "position": 2
        },
        {
            "token": "fox",
            "startOffset": 16,
            "endOffset": 19,
            "position": 3
        }
    ]
}

Confira também