Adicionar analisadores personalizados a campos de cadeia de caracteres em um índice de Pesquisa Cognitiva do AzureAdd custom analyzers to string fields in an Azure Cognitive Search index

Um analisador personalizado é uma combinação de criador, um ou mais filtros de token e um ou mais filtros de caracteres que você define no índice de pesquisa e, em seguida, referência em definições de campo que exigem análise personalizada.A custom analyzer is a combination of tokenizer, one or more token filters, and one or more character filters that you define in the search index, and then reference on field definitions that require custom analysis. O criador de token é responsável por quebrar o texto em tokens, e os filtros de token são responsáveis por modificar tokens emitidos pelo criador de token.The tokenizer is responsible for breaking text into tokens, and the token filters for modifying tokens emitted by the tokenizer. Os filtros de caractere preparam o texto de entrada antes de serem processados pelo criador.Character filters prepare the input text before it is processed by the tokenizer.

Um analisador personalizado oferece controle sobre o processo de conversão de texto em tokens indexáveis e pesquisáveis, permitindo que você escolha quais tipos de análise ou filtragem devem ser invocados e a ordem na qual eles ocorrem.A custom analyzer gives you control over the process of converting text into indexable and searchable tokens by allowing you to choose which types of analysis or filtering to invoke, and the order in which they occur. Se você quiser usar um analisador interno com opções personalizadas, como alterar o maxTokenLength no padrão, você criaria um analisador personalizado, com um nome definido pelo usuário, para definir essas opções.If you want to use a built-in analyzer with custom options, such as changing the maxTokenLength on Standard, you would create a custom analyzer, with a user-defined name, to set those options.

As situações em que os analisadores personalizados podem ser úteis incluem:Situations where custom analyzers can be helpful include:

  • Usar filtros de caractere para remover a marcação HTML antes que as entradas de texto sejam indexadas ou substituir determinados caracteres ou símbolos.Using character filters to remove HTML markup before text inputs are tokenized, or replace certain characters or symbols.

  • Pesquisa fonética.Phonetic search. Adicione um filtro fonético para permitir a pesquisa com base no som de uma palavra, e não na ortografia.Add a phonetic filter to enable searching based on how a word sounds, not how it’s spelled.

  • Desabilitar análise léxica.Disable lexical analysis. Use o analisador de palavra-chave para criar campos de pesquisa que não são analisados.Use the Keyword analyzer to create searchable fields that are not analyzed.

  • Pesquisa rápida de prefixo/sufixo.Fast prefix/suffix search. Adicione o filtro de token Edge N-gram para indexar prefixos de palavras a fim de habilitar a correspondência rápida de prefixo.Add the Edge N-gram token filter to index prefixes of words to enable fast prefix matching. Combine-a com o filtro de token Inverso para realizar a correspondência de sufixo.Combine it with the Reverse token filter to do suffix matching.

  • Criação de tokens personalizada.Custom tokenization. Por exemplo, use o criador de token Whitespace para dividir as frases em tokens usando o espaço em branco como um delimitadorFor example, use the Whitespace tokenizer to break sentences into tokens using whitespace as a delimiter

  • Folding ASCII.ASCII folding. Adicione o filtro Folding ASCII padrão para normalizar diacríticos como ö ou ê em termos de pesquisa.Add the Standard ASCII folding filter to normalize diacritics like ö or ê in search terms.

Para criar um analisador personalizado, especifique-o na seção "analisadores" de um índice no tempo de design e faça referência a ele nos campos pesquisáveis, EDM. String usando a propriedade "Analyzer" ou o par "indexAnalyzer" e "searchAnalyzer".To create a custom analyzer, specify it in the "analyzers" section of an index at design time, and then reference it on searchable, Edm.String fields using either the "analyzer" property, or the "indexAnalyzer" and "searchAnalyzer" pair.

Observação

Os analisadores personalizados que você cria não são expostos no Portal do Azure.Custom analyzers that you create are not exposed in the Azure portal. A única maneira de adicionar um analisador personalizado é por meio de código que define um índice.The only way to add a custom analyzer is through code that defines an index.

Criar um analisador personalizadoCreate a custom analyzer

Uma definição do analisador inclui um nome, tipo, um ou mais filtros de caractere, um máximo de um criador e um ou mais filtros de token para o processamento pós-tokening.An analyzer definition includes a name, type, one or more character filters, a maximum of one tokenizer, and one or more token filters for post-tokenization processing. Os filtros de caractere são aplicados antes da geração de tokens.Character filters are applied before tokenization. Filtros de token e filtros de caractere são aplicados da esquerda para a direita.Token filters and character filters are applied from left to right.

  • Os nomes em um analisador personalizado devem ser exclusivos e não podem ser os mesmos dos filtros internos, criadores, filtros de token ou de caracteres.Names in a custom analyzer must be unique and cannot be the same as any of the built-in analyzers, tokenizers, token filters, or characters filters. Deve conter apenas letras, números, espaços, traços ou sublinhados, pode começar e terminar apenas com caracteres alfanuméricos e está limitado a 128 caracteres.It must only contain letters, digits, spaces, dashes or underscores, can only start and end with alphanumeric characters, and is limited to 128 characters.

  • O tipo deve ser #Microsoft. Azure. Search. CustomAnalyzer.The type must be #Microsoft.Azure.Search.CustomAnalyzer.

  • "charFilters" pode ser um ou mais filtros de filtros de caractere, processados antes de geração de tokens, na ordem fornecida."charFilters" can be one or more filters from Character Filters, processed before tokenization, in the order provided. Alguns filtros de caractere têm opções, que podem ser definidas em uma seção "charFilter".Some character filters have options, which can be set in a "charFilter section. Os filtros de caractere são opcionais.Character filters are optional.

  • "criador" é exatamente um criador."tokenizer" is exactly one Tokenizer. É necessário um valor.A value is required. Se precisar de mais de um criador de token, você pode criar vários analisadores personalizados e atribuí-los campo por campo em seu esquema de índice.If you need more than one tokenizer, you can create multiple custom analyzers and assign them on a field-by-field basis in your index schema.

  • "tokenFilters" pode ser um ou mais filtros de filtros de token, processados após a geração de tokens, na ordem fornecida."tokenFilters" can be one or more filters from Token Filters, processed after tokenization, in the order provided. Para filtros de token que têm opções, adicione uma seção "tokenFilter" para especificar a configuração.For token filters that have options, add a "tokenFilter" section to specify the configuration. Filtros de token são opcionais.Token filters are optional.

Os analisadores não devem produzir tokens com mais de 300 caracteres ou haverá falha na indexação.Analyzers must not produce tokens longer than 300 characters, or indexing will fail. Para aparar o token longo ou para excluí-los, use o TruncateTokenFilter e o LengthTokenFilter , respectivamente.To trim long token or to exclude them, use the TruncateTokenFilter and the LengthTokenFilter respectively. Consulte filtros de token para referência.See Token filters for reference.

"analyzers":(optional)[
   {
      "name":"name of analyzer",
      "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters":[
         "char_filter_name_1",
         "char_filter_name_2"
      ],
      "tokenizer":"tokenizer_name",
      "tokenFilters":[
         "token_filter_name_1",
         "token_filter_name_2"
      ]
   },
   {
      "name":"name of analyzer",
      "@odata.type":"#analyzer_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"charFilters":(optional)[
   {
      "name":"char_filter_name",
      "@odata.type":"#char_filter_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"tokenizers":(optional)[
   {
      "name":"tokenizer_name",
      "@odata.type":"#tokenizer_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"tokenFilters":(optional)[
   {
      "name":"token_filter_name",
      "@odata.type":"#token_filter_type",
      "option1":value1,
      "option2":value2,
      ...
   }
]

Dentro de uma definição de índice, você pode colocar essa seção em qualquer lugar no corpo de uma solicitação de criação de índice, mas geralmente ela ocorre no final:Within an index definition, you can place this section anywhere in the body of a create index request but usually it goes at the end:

{
  "name": "name_of_index",
  "fields": [ ],
  "suggesters": [ ],
  "scoringProfiles": [ ],
  "defaultScoringProfile": (optional) "...",
  "corsOptions": (optional) { },
  "analyzers":(optional)[ ],
  "charFilters":(optional)[ ],
  "tokenizers":(optional)[ ],
  "tokenFilters":(optional)[ ]
}

A definição do analisador é uma parte do índice maior.The analyzer definition is a part of the larger index. As definições para filtros de caracteres, criadores de token e filtros de token serão adicionadas ao índice somente se você estiver definindo opções personalizadas.Definitions for char filters, tokenizers, and token filters are added to the index only if you are setting custom options. Para usar um filtro ou criador de token existente no estado em que ele se encontra, especifique-o por nome na definição do analisador.To use an existing filter or tokenizer as-is, specify it by name in the analyzer definition. Para obter mais informações, consulte criar índice (REST).For more information, see Create Index (REST). Para obter mais exemplos, consulte Adicionar analisadores no Azure pesquisa cognitiva.For more examples, see Add analyzers in Azure Cognitive Search.

Testar analisadores personalizadosTest custom analyzers

Você pode usar o Test Analyzer (REST) para ver como um analisador quebra o texto em tokens.You can use the Test Analyzer (REST) to see how an analyzer breaks given text into tokens.

SolicitaçãoRequest

  POST https://[search service name].search.windows.net/indexes/[index name]/analyze?api-version=[api-version]
    Content-Type: application/json
    api-key: [admin key]

  {
     "analyzer":"my_analyzer",
     "text": "Vis-à-vis means Opposite"
  }

RespostaResponse

  {
    "tokens": [
      {
        "token": "vis_a_vis",
        "startOffset": 0,
        "endOffset": 9,
        "position": 0
      },
      {
        "token": "vis_à_vis",
        "startOffset": 0,
        "endOffset": 9,
        "position": 0
      },
      {
        "token": "means",
        "startOffset": 10,
        "endOffset": 15,
        "position": 1
      },
      {
        "token": "opposite",
        "startOffset": 16,
        "endOffset": 24,
        "position": 2
      }
    ]
  }

Atualizar analisadores personalizadosUpdate custom analyzers

Depois que um analisador, um criador, um filtro de token ou um filtro de caracteres é definido, ele não pode ser modificado.Once an analyzer, a tokenizer, a token filter, or a character filter is defined, it cannot be modified. Outros novos poderão ser adicionados a um índice existente apenas se o sinalizador allowIndexDowntime estiver definido como true na solicitação de atualização de índice:New ones can be added to an existing index only if the allowIndexDowntime flag is set to true in the index update request:

PUT https://[search service name].search.windows.net/indexes/[index name]?api-version=[api-version]&allowIndexDowntime=true

Essa operação deixa seu índice offline por pelo menos alguns segundos, fazendo com que suas solicitações de indexação e de consulta falhem.This operation takes your index offline for at least a few seconds, causing your indexing and query requests to fail. O desempenho e a disponibilidade de gravação do índice podem ser prejudicados por vários minutos após o índice ser atualizado, ou por mais tempo em caso de índices muito grandes, mas esses efeitos são temporários e acabam se resolvendo sozinhos.Performance and write availability of the index can be impaired for several minutes after the index is updated, or longer for very large indexes, but these effects are temporary and eventually resolve on their own.

Analisadores internosBuilt-in analyzers

Se você quiser usar um analisador interno com opções personalizadas, a criação de um analisador personalizado é o mecanismo pelo qual você especifica essas opções.If you want to use a built-in analyzer with custom options, creating a custom analyzer is the mechanism by which you specify those options. Por outro lado, para usar um analisador interno como está, você simplesmente precisa fazer referência a ele pelo nome na definição de campo.In contrast, to use a built-in analyzer as-is, you simply need to reference it by name in the field definition.

analyzer_nameanalyzer_name analyzer_type 1analyzer_type 1 Descrição e opçõesDescription and Options
chaveskeyword (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Trata todo o conteúdo de um campo como um único token.Treats the entire content of a field as a single token. É útil para dados como códigos postais, IDs e alguns nomes de produtos.This is useful for data like zip codes, IDs, and some product names.
padrãopattern PatternAnalyzerPatternAnalyzer Separa texto em termos de forma flexível por meio de um padrão de expressão regular.Flexibly separates text into terms via a regular expression pattern.

OpçõesOptions

lowercase (tipo: bool) — determina se os termos estão em minúscula.lowercase (type: bool) - Determines whether terms are lowercased. O padrão é true.The default is true.

pattern (tipo: cadeia de caracteres) — um padrão de expressão regular para corresponder separadores de token.pattern (type: string) - A regular expression pattern to match token separators. O padrão é \W+ , que corresponde a caracteres que não são palavras.The default is \W+, which matches non-word characters.

flags (tipo: cadeia de caracteres) — sinalizadores de expressão regular.flags (type: string) - Regular expression flags. O padrão é uma cadeia de caracteres vazia.The default is an empty string. Valores permitidos: CANON_EQ, CASE_INSENSITIVE, comentários, dotall, LITERAL, MULTILINHA, UNICODE_CASE, UNIX_LINESAllowed values: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINES

stopwords (tipo: matriz de cadeia de caracteres) — uma lista de palavras irrelevantes.stopwords (type: string array) - A list of stopwords. O padrão é uma lista vazia.The default is an empty list.
únicosimple (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Divide o texto em não letras e converte em minúsculas.Divides text at non-letters and converts them to lower case.
Standardizationstandard
(Também conhecido como standard.lucene)(Also referred to as standard.lucene)
StandardAnalyzerStandardAnalyzer Analisador padrão Lucene, composto pelo criador de token padrão, filtro de letras minúsculas e interrupção de filtro.Standard Lucene analyzer, composed of the standard tokenizer, lowercase filter, and stop filter.

OpçõesOptions

maxTokenLength (tipo: int) — o comprimento máximo do token.maxTokenLength (type: int) - The maximum token length. O padrão é 255.The default is 255. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split. O comprimento máximo do token que pode ser usado é de 300 caracteres.Maximum token length that can be used is 300 characters.

stopwords (tipo: matriz de cadeia de caracteres) — uma lista de palavras irrelevantes.stopwords (type: string array) - A list of stopwords. O padrão é uma lista vazia.The default is an empty list.
standardasciifolding.Lucenestandardasciifolding.lucene (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Analisador padrão com Filtro Ascii.Standard analyzer with Ascii folding filter.
stopstop StopAnalyzerStopAnalyzer Divide o texto em não letras, aplica os filtros de token em minúsculas e de palavras irrelevantes.Divides text at non-letters, applies the lowercase and stopword token filters.

OpçõesOptions

stopwords (tipo: matriz de cadeia de caracteres) — uma lista de palavras irrelevantes.stopwords (type: string array) - A list of stopwords. O padrão é uma lista predefinida para Inglês.The default is a predefined list for English.
diferentewhitespace (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Um analisador que usa o criador de token whitespace.An analyzer that uses the whitespace tokenizer. Os tokens com mais de 255 caracteres são divididos.Tokens that are longer than 255 characters are split.

1 Os tipos de analisadores são sempre prefixados em código com "#Microsoft.Azure.Search", ou seja, "PatternAnalyzer" na verdade seria "#Microsoft.Azure.Search.PatternAnalyzer".1 Analyzer Types are always prefixed in code with "#Microsoft.Azure.Search" such that "PatternAnalyzer" would actually be specified as "#Microsoft.Azure.Search.PatternAnalyzer". Removemos o prefixo para encurtar, mas ele é necessário em seu código.We removed the prefix for brevity, but the prefix is required in your code.

O analyzer_type é fornecido apenas para analisadores que podem ser personalizados.The analyzer_type is only provided for analyzers that can be customized. Se não há opções, como é o caso do analisador de palavras-chave, não há nenhum tipo associado do #Microsoft.Azure.Search.If there are no options, as is the case with the keyword analyzer, there is no associated #Microsoft.Azure.Search type.

Filtros de caractereCharacter filters

Na tabela abaixo, filtros de caracteres que são implementados usando o Apache Lucene têm links para a documentação da API Lucene.In the table below, the character filters that are implemented using Apache Lucene are linked to the Lucene API documentation.

char_filter_namechar_filter_name char_filter_type 1char_filter_type 1 Descrição e opçõesDescription and Options
html_striphtml_strip (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Um filtro de caracteres que tenta remover constructos de HTML.A char filter that attempts to strip out HTML constructs.
correlaçãomapping MappingCharFilterMappingCharFilter Um filtro de caracteres que aplica mapeamentos definidos com a opção de mapeamentos.A char filter that applies mappings defined with the mappings option. A correspondência é gananciosa (a correspondência de padrões mais longa em um determinado ponto vence).Matching is greedy (longest pattern matching at a given point wins). A substituição é permitida como a cadeia de caracteres vazia.Replacement is allowed to be the empty string.

OpçõesOptions

mappings (tipo: cadeia de caracteres) — uma lista de mapeamentos do seguinte formato: "a=>b" (todas as ocorrências do caracter "a" são substituídas pelo caracter "b").mappings (type: string array) - A list of mappings of the following format: "a=>b" (all occurrences of the character "a" are replaced with character "b"). Obrigatórios.Required.
pattern_replacepattern_replace PatternReplaceCharFilterPatternReplaceCharFilter Um filtro de caracteres que substitui os caracteres na cadeia de entrada.A char filter that replaces characters in the input string. Ele usa uma expressão regular para identificar sequências de caracteres para preservar e um padrão de substituição para identificar caracteres para substituir.It uses a regular expression to identify character sequences to preserve and a replacement pattern to identify characters to replace. Por exemplo, input text = "aa bb aa bb", pattern="(aa)\\s+(bb)" replacement="$1#$2", result = "aa#bb aa#bb".For example, input text = "aa bb aa bb", pattern="(aa)\\s+(bb)" replacement="$1#$2", result = "aa#bb aa#bb".

OpçõesOptions

pattern (tipo: cadeia de caracteres) — obrigatório.pattern (type: string) - Required.

replacement (tipo: cadeia de caracteres) — obrigatório.replacement (type: string) - Required.

1 Os tipos de filtros de caracteres são sempre prefixados em código com "#Microsoft.Azure.Search", ou seja, "MappingCharFilter" na verdade seria "#Microsoft.Azure.Search.MappingCharFilter.1 Char Filter Types are always prefixed in code with "#Microsoft.Azure.Search" such that "MappingCharFilter" would actually be specified as "#Microsoft.Azure.Search.MappingCharFilter. Removemos o prefixo para reduzir a largura da tabela, mas lembre-se de incluí-lo em seu código.We removed the prefix to reduce the width of the table, but please remember to include it in your code. Observe que char_filter_type é fornecida somente para filtros que podem ser personalizados.Notice that char_filter_type is only provided for filters that can be customized. Se não ha opções, como é o caso de html_strip, não há nenhum tipo associado do #Microsoft.Azure.Search.If there are no options, as is the case with html_strip, there is no associated #Microsoft.Azure.Search type.

Criadores de tokenTokenizers

Um criador de token divide o texto contínuo em uma sequência de tokens, assim como quebrar uma frase em palavras.A tokenizer divides continuous text into a sequence of tokens, such as breaking a sentence into words. Na tabela abaixo, os criadores de token que são implementados usando o Apache Lucene têm links para a documentação da API Lucene.In the table below, the tokenizers that are implemented using Apache Lucene are linked to the Lucene API documentation.

tokenizer_nametokenizer_name tokenizer_type 1tokenizer_type 1 Descrição e opçõesDescription and Options
clássicoclassic ClassicTokenizerClassicTokenizer O criador de token baseado em gramática é adequado para processar a maioria dos documentos no idioma europeu.Grammar based tokenizer that is suitable for processing most European-language documents.

OpçõesOptions

maxTokenLength (tipo: int) — o comprimento máximo do token.maxTokenLength (type: int) - The maximum token length. Padrão: 255, máximo: 300.Default: 255, maximum: 300. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split.
edgeNGramedgeNGram EdgeNGramTokenizerEdgeNGramTokenizer Cria tokens para a entrada a partir de uma borda em n-gramas de determinados tamanhos.Tokenizes the input from an edge into n-grams of given size(s).

OpçõesOptions

minGram (tipo: int) – padrão: 1, máximo: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (tipo: int) – padrão: 2, máximo: 300.maxGram (type: int) - Default: 2, maximum: 300. Deve ser maior que minGram.Must be greater than minGram.

tokenChars (tipo: matriz de cadeia de caracteres) — classes de caracteres para manter nos tokens.tokenChars (type: string array) - Character classes to keep in the tokens. Valores permitidos:Allowed values:
“letra”, “dígito”, “espaço em branco”, “pontuação”, “símbolo”."letter", "digit", "whitespace", "punctuation", "symbol". O padrão é uma matriz vazia, mantém todos os caracteres.Defaults to an empty array - keeps all characters.
keyword_v2keyword_v2 KeywordTokenizerV2KeywordTokenizerV2 Emite a entrada inteira como um único token.Emits the entire input as a single token.

OpçõesOptions

maxTokenLength (tipo: int) — o comprimento máximo do token.maxTokenLength (type: int) - The maximum token length. Padrão: 256, máximo: 300.Default: 256, maximum: 300. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split.
letrasletter (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Divide o texto em não letras.Divides text at non-letters. Os tokens com mais de 255 caracteres são divididos.Tokens that are longer than 255 characters are split.
minúsculaslowercase (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Divide o texto em não letras e converte em minúsculas.Divides text at non-letters and converts them to lower case. Os tokens com mais de 255 caracteres são divididos.Tokens that are longer than 255 characters are split.
microsoft_language_tokenizermicrosoft_language_tokenizer MicrosoftLanguageTokenizerMicrosoftLanguageTokenizer Divide o texto usando regras específicas de idioma.Divides text using language-specific rules.

OpçõesOptions

maxTokenLength (tipo: int)-o comprimento máximo do token, padrão: 255, máximo: 300.maxTokenLength (type: int) - The maximum token length, default: 255, maximum: 300. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split. Tokens mais longos que 300 caracteres são divididos em tokens de 300 caracteres, e estes são divididos de acordo com o maxTokenLength definido.Tokens longer than 300 characters are first split into tokens of length 300 and then each of those tokens is split based on the maxTokenLength set.

isSearchTokenizer (tipo: bool) — defina como true se for usado como o criador de token de pesquisa, defina como false se for usado como criador de token de indexação.isSearchTokenizer (type: bool) - Set to true if used as the search tokenizer, set to false if used as the indexing tokenizer.

language (tipo: cadeia de caracteres) — idioma a ser usado, o padrão é "english".language (type: string) - Language to use, default "english". Entre os valores permitidos estão:Allowed values include:
"bangla", "bulgarian", "catalan", "chineseSimplified", "chineseTraditional", "croatian", "czech", "danish", "dutch", "english", "french", "german", "greek", "gujarati", "hindi", "icelandic", "indonesian", "italian", "japanese", "kannada", "korean", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovenian", "spanish", "swedish", "tamil", "telugu", "thai", "ukrainian", "urdu", "vietnamese""bangla", "bulgarian", "catalan", "chineseSimplified", "chineseTraditional", "croatian", "czech", "danish", "dutch", "english", "french", "german", "greek", "gujarati", "hindi", "icelandic", "indonesian", "italian", "japanese", "kannada", "korean", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovenian", "spanish", "swedish", "tamil", "telugu", "thai", "ukrainian", "urdu", "vietnamese"
microsoft_language_stemming_tokenizermicrosoft_language_stemming_tokenizer MicrosoftLanguageStemmingTokenizerMicrosoftLanguageStemmingTokenizer Divide o texto usando regras específicas de idioma e reduz palavras para seus formulários baseDivides text using language-specific rules and reduces words to their base forms

OpçõesOptions

maxTokenLength (tipo: int)-o comprimento máximo do token, padrão: 255, máximo: 300.maxTokenLength (type: int) - The maximum token length, default: 255, maximum: 300. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split. Tokens mais longos que 300 caracteres são divididos em tokens de 300 caracteres, e estes são divididos de acordo com o maxTokenLength definido.Tokens longer than 300 characters are first split into tokens of length 300 and then each of those tokens is split based on the maxTokenLength set.

isSearchTokenizer (tipo: bool) — defina como true se for usado como o criador de token de pesquisa, defina como false se for usado como criador de token de indexação.isSearchTokenizer (type: bool) - Set to true if used as the search tokenizer, set to false if used as the indexing tokenizer.

language (tipo: cadeia de caracteres) — idioma a ser usado, o padrão é "english".language (type: string) - Language to use, default "english". Entre os valores permitidos estão:Allowed values include:
"arabic", "bangla", "bulgarian", "catalan", "croatian", "czech", "danish", "dutch", "english", "estonian", "finnish", "french", "german", "greek", "gujarati", "hebrew", "hindi", "hungarian", "icelandic", "indonesian", "italian", "kannada", "latvian", "lithuanian", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovak", "slovenian", "spanish", "swedish", "tamil", "telugu", "turkish", "ukrainian", "urdu""arabic", "bangla", "bulgarian", "catalan", "croatian", "czech", "danish", "dutch", "english", "estonian", "finnish", "french", "german", "greek", "gujarati", "hebrew", "hindi", "hungarian", "icelandic", "indonesian", "italian", "kannada", "latvian", "lithuanian", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovak", "slovenian", "spanish", "swedish", "tamil", "telugu", "turkish", "ukrainian", "urdu"
nGramnGram NGramTokenizerNGramTokenizer Cria tokens de entrada em n-gramas de determinados tamanhos.Tokenizes the input into n-grams of the given size(s).

OpçõesOptions

minGram (tipo: int) – padrão: 1, máximo: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (tipo: int) – padrão: 2, máximo: 300.maxGram (type: int) - Default: 2, maximum: 300. Deve ser maior que minGram.Must be greater than minGram.

tokenChars (tipo: matriz de cadeia de caracteres) — classes de caracteres para manter nos tokens.tokenChars (type: string array) - Character classes to keep in the tokens. Valores permitidos: "letter", "digit", "whitespace", "punctuation", "symbol".Allowed values: "letter", "digit", "whitespace", "punctuation", "symbol". O padrão é uma matriz vazia, mantém todos os caracteres.Defaults to an empty array - keeps all characters.
path_hierarchy_v2path_hierarchy_v2 PathHierarchyTokenizerV2PathHierarchyTokenizerV2 Criador de token para hierarquias de caminho.Tokenizer for path-like hierarchies. OpçõesOptions

delimiter (tipo: cadeia de caracteres) — padrão: '/.delimiter (type: string) - Default: '/.

replacement (tipo: cadeia de caracteres) — se definido, substitui o caractere delimitador.replacement (type: string) - If set, replaces the delimiter character. Tem como padrão o mesmo valor do delimitador.Default same as the value of delimiter.

maxTokenLength (tipo: int) — o comprimento máximo do token.maxTokenLength (type: int) - The maximum token length. Padrão: 300, máximo: 300.Default: 300, maximum: 300. Caminhos mais longos que o maxTokenLength são ignorados.Paths longer than maxTokenLength are ignored.

reverse (tipo: bool) — se for true, gera o token na ordem inversa.reverse (type: bool) - If true, generates token in reverse order. Padrão: falso.Default: false.

skipl (tipo: bool) — tokens iniciais a ignorar.skip (type: bool) - Initial tokens to skip. O padrão é 0.The default is 0.
padrãopattern PatternTokenizerPatternTokenizer Este criador de token usa a correspondência de padrões de regex para criar tokens distintos.This tokenizer uses regex pattern matching to construct distinct tokens.

OpçõesOptions

padrão (tipo: cadeia de caracteres)-padrão de expressão regular para corresponder separadores de token.pattern (type: string) - Regular expression pattern to match token separators. O padrão é \W+ , que corresponde a caracteres que não são palavras.The default is \W+, which matches non-word characters.

flags (tipo: cadeia de caracteres) — sinalizadores de expressão regular.flags (type: string) - Regular expression flags. O padrão é uma cadeia de caracteres vazia.The default is an empty string. Valores permitidos: CANON_EQ, CASE_INSENSITIVE, comentários, dotall, LITERAL, MULTILINHA, UNICODE_CASE, UNIX_LINESAllowed values: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINES

group (tipo: int) — qual grupo extrair em tokens.group (type: int) - Which group to extract into tokens. O padrão é -1 (divisão).The default is -1 (split).
standard_v2standard_v2 StandardTokenizerV2StandardTokenizerV2 Quebra o texto seguindo as regras de Segmentação de Texto Unicode.Breaks text following the Unicode Text Segmentation rules.

OpçõesOptions

maxTokenLength (tipo: int) — o comprimento máximo do token.maxTokenLength (type: int) - The maximum token length. Padrão: 255, máximo: 300.Default: 255, maximum: 300. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split.
uax_url_emailuax_url_email UaxUrlEmailTokenizerUaxUrlEmailTokenizer Cria tokens de urls e emails como um único token.Tokenizes urls and emails as one token.

OpçõesOptions

maxTokenLength (tipo: int) — o comprimento máximo do token.maxTokenLength (type: int) - The maximum token length. Padrão: 255, máximo: 300.Default: 255, maximum: 300. Tokens maiores do que o tamanho máximo são divididos.Tokens longer than the maximum length are split.
diferentewhitespace (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Divide o texto em espaços em branco.Divides text at whitespace. Os tokens com mais de 255 caracteres são divididos.Tokens that are longer than 255 characters are split.

1 Os tipos de criadores de token são sempre prefixados em código com "#Microsoft.Azure.Search", ou seja, "ClassicTokenizer" na verdade seria "#Microsoft.Azure.Search.ClassicTokenizer".1 Tokenizer Types are always prefixed in code with "#Microsoft.Azure.Search" such that "ClassicTokenizer" would actually be specified as "#Microsoft.Azure.Search.ClassicTokenizer". Removemos o prefixo para reduzir a largura da tabela, mas lembre-se de incluí-lo em seu código.We removed the prefix to reduce the width of the table, but please remember to include it in your code. Observe que tokenizer_type é fornecida somente para criadores que podem ser personalizadas.Notice that tokenizer_type is only provided for tokenizers that can be customized. Se não há opções, como é o caso do criador de token de letra, não há nenhum tipo associado do # Microsoft.Azure.Search.If there are no options, as is the case with the letter tokenizer, there is no associated #Microsoft.Azure.Search type.

Filtros de tokenToken filters

Um filtro de token é usado para filtrar ou modificar os tokens gerados por um criador de token.A token filter is used to filter out or modify the tokens generated by a tokenizer. Por exemplo, você pode especificar um filtro de minúsculas que converte todos os caracteres em letras minúsculas.For example, you can specify a lowercase filter that converts all characters to lowercase. Você pode ter vários filtros de token em um analisador personalizado.You can have multiple token filters in a custom analyzer. Os filtros de token são executados na ordem em que estão listados.Token filters run in the order in which they are listed.

Na tabela abaixo, os filtros de token que são implementados usando o Apache Lucene têm links para a documentação da API Lucene.In the table below, the token filters that are implemented using Apache Lucene are linked to the Lucene API documentation.

token_filter_nametoken_filter_name token_filter_type 1token_filter_type 1 Descrição e opçõesDescription and Options
arabic_normalizationarabic_normalization (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Um filtro de token que aplica o normalizador em árabe para normalizar a ortografia.A token filter that applies the Arabic normalizer to normalize the orthography.
apostropheapostrophe (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Remove todos os caracteres após um apóstrofo (incluindo o próprio apóstrofo).Strips all characters after an apostrophe (including the apostrophe itself).
asciifoldingasciifolding AsciiFoldingTokenFilterAsciiFoldingTokenFilter Converte caracteres Unicode alfabéticos, numéricos e simbólicos que não estão nos primeiros 127 caracteres ASCII (o bloco Unicode "Latim básico") em seus equivalentes ASCII, se existirem.Converts alphabetic, numeric, and symbolic Unicode characters which are not in the first 127 ASCII characters (the "Basic Latin" Unicode block) into their ASCII equivalents, if one exists.

OpçõesOptions

preserveOriginal (tipo: bool) — se true, o token original é mantido.preserveOriginal (type: bool) - If true, the original token is kept. O padrão é falso.The default is false.
cjk_bigramcjk_bigram CjkBigramTokenFilterCjkBigramTokenFilter Forma bigramas de termos CJK que são gerados a partir do StandardTokenizer.Forms bigrams of CJK terms that are generated from StandardTokenizer.

OpçõesOptions

ignoreScripts (tipo: matriz de cadeia de caracteres) – scripts a ignorar.ignoreScripts (type: string array) - Scripts to ignore. Entre os valores permitidos estão: "han", "hiragana", "katakana", "hangul".Allowed values include: "han", "hiragana", "katakana", "hangul". O padrão é uma lista vazia.The default is an empty list.

outputUnigrams (tipo: bool) — defina como true se você sempre quer gerar unigramas e bigramas.outputUnigrams (type: bool) - Set to true if you always want to output both unigrams and bigrams. O padrão é falso.The default is false.
cjk_widthcjk_width (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Normaliza as diferenças de largura CJK.Normalizes CJK width differences. Transforma variantes ASCII de largura completa em variantes básicas equivalentes de latim e meia largura Katakana no kana equivalente.Folds full width ASCII variants into the equivalent basic latin and half-width Katakana variants into the equivalent kana.
clássicoclassic (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Remove os possessivos ingleses e os pontos das siglas.Removes the English possessives, and dots from acronyms.
common_gramscommon_grams CommonGramTokenFilterCommonGramTokenFilter Construa bigramas para termos que ocorrem com frequência durante a indexação.Construct bigrams for frequently occurring terms while indexing. Termos únicos ainda são indexados também, com bigramas sobrepostos.Single terms are still indexed too, with bigrams overlaid.

OpçõesOptions

commonWords (tipo: matriz de cadeia de caracteres) — o conjunto de palavras comuns.commonWords (type: string array) - The set of common words. O padrão é uma lista vazia.The default is an empty list. Obrigatórios.Required.

ignoreCase (tipo: bool) — se true, a correspondência não diferencia maiúsculas e minúsculas.ignoreCase (type: bool) - If true, matching is case insensitive. O padrão é falso.The default is false.

queryMode (tipo: bool) — gera bigramas, em seguida, remove palavras comuns e termos simples seguidos por uma palavra comum.queryMode (type: bool) - Generates bigrams then removes common words and single terms followed by a common word. O padrão é falso.The default is false.
dictionary_decompounderdictionary_decompounder DictionaryDecompounderTokenFilterDictionaryDecompounderTokenFilter Decompõe palavras compostas encontradas em muitos idiomas germânicos.Decomposes compound words found in many Germanic languages.

OpçõesOptions

wordList (tipo: cadeia de caracteres) — lista de palavras para correspondência.wordList (type: string array) - The list of words to match against. O padrão é uma lista vazia.The default is an empty list. Obrigatórios.Required.

minWordSize (tipo: int) — apenas palavras mais longas que isso são processadas.minWordSize (type: int) - Only words longer than this get processed. O padrão é 5.The default is 5.

minSubwordSize (tipo: int) — apenas subpalavras maiores que isso são geradas.minSubwordSize (type: int) - Only subwords longer than this are outputted. O padrão é 2.The default is 2.

maxSubwordSize (tipo: int) — apenas subpalavras mais curtas que isso são geradas.maxSubwordSize (type: int) - Only subwords shorter than this are outputted. O padrão é 15.The default is 15.

onlyLongestMatch (tipo: bool) — adicione somente a maior correspondência de subpalavra para saída.onlyLongestMatch (type: bool) - Add only the longest matching subword to output. O padrão é falso.The default is false.
edgeNGram_v2edgeNGram_v2 EdgeNGramTokenFilterV2EdgeNGramTokenFilterV2 Gera n-gramas de determinados tamanhos começando do início ou do fim de um token de entrada.Generates n-grams of the given size(s) from starting from the front or the back of an input token.

OpçõesOptions

minGram (tipo: int) – padrão: 1, máximo: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (tipo: int) – padrão: 2, máximo 300.maxGram (type: int) - Default: 2, maximum 300. Deve ser maior que minGram.Must be greater than minGram.

side (tipo: cadeia de caracteres) — especifica de que lado da entrada o n-grama deve ser gerado.side (type: string) - Specifies which side of the input the n-gram should be generated from. Valores permitidos: "front", "back"Allowed values: "front", "back"
elisionelision ElisionTokenFilterElisionTokenFilter Remove elisões.Removes elisions. Por exemplo, "l'avion" (o avião) é convertido em "avion" (avião).For example, "l'avion" (the plane) is converted to "avion" (plane).

OpçõesOptions

articles (tipo: matriz de cadeia de caracteres) — um conjunto de artigos a remover.articles (type: string array) - A set of articles to remove. O padrão é uma lista vazia.The default is an empty list. Se não houver uma lista de artigos definidos, por padrão, todos os artigos em francês serão removidos.If there is no list of articles set, by default all French articles are removed.
german_normalizationgerman_normalization (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Normaliza caracteres alemães de acordo com as heurísticas do algoritmo german2.Normalizes German characters according to the heuristics of the German2 snowball algorithm .
hindi_normalizationhindi_normalization (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Normaliza o texto em hindi para remover algumas diferenças nas variações ortográficas.Normalizes text in Hindi to remove some differences in spelling variations.
indic_normalizationindic_normalization IndicNormalizationTokenFilterIndicNormalizationTokenFilter Normaliza a representação Unicode do texto nos idiomas indianos.Normalizes the Unicode representation of text in Indian languages.
manterkeep KeepTokenFilterKeepTokenFilter Um filtro de token que mantém apenas tokens com texto contido na lista especificada de palavras.A token filter that only keeps tokens with text contained in specified list of words.

OpçõesOptions

keepWords (tipo: cadeia de caracteres) — uma lista de palavras a manter.keepWords (type: string array) - A list of words to keep. O padrão é uma lista vazia.The default is an empty list. Obrigatórios.Required.

keepWordsCase (tipo: bool) — se true, muda para minúsculas todas as palavras primeiro.keepWordsCase (type: bool) - If true, lower case all words first. O padrão é falso.The default is false.
keyword_markerkeyword_marker KeywordMarkerTokenFilterKeywordMarkerTokenFilter Marca termos como palavras-chave.Marks terms as keywords.

OpçõesOptions

keywords (tipo: cadeia de caracteres) — uma lista de palavras para marcar como palavras-chave.keywords (type: string array) - A list of words to mark as keywords. O padrão é uma lista vazia.The default is an empty list. Obrigatórios.Required.

ignoreCase (tipo: bool) — se true, muda para minúsculas todas as palavras primeiro.ignoreCase (type: bool) - If true, lower case all words first. O padrão é falso.The default is false.
keyword_repeatkeyword_repeat (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Emite cada token de entrada duas vezes: uma vez como palavra-chave e uma vez como não palavra-chave.Emits each incoming token twice once as keyword and once as non-keyword.
kstemkstem (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Um filtro kstem de alto desempenho para o inglês.A high-performance kstem filter for English.
lengthlength LengthTokenFilterLengthTokenFilter Remove palavras muito longas ou muito curtas.Removes words that are too long or too short.

OpçõesOptions

min (tipo: int) — o número mínimo.min (type: int) - The minimum number. Padrão: 0, máximo: 300.Default: 0, maximum: 300.

max (tipo: int) — o número máximo.max (type: int) - The maximum number. Padrão: 300, máximo: 300.Default: 300, maximum: 300.
limitlimit Microsoft.Azure.Search.LimitTokenFilterMicrosoft.Azure.Search.LimitTokenFilter Limita o número de tokens durante a indexação.Limits the number of tokens while indexing.

OpçõesOptions

maxTokenCount (tipo: int) — número máximo de tokens a produzir.maxTokenCount (type: int) - Max number of tokens to produce. O padrão é 1.The default is 1.

consumeAllTokens (tipo: bool) — se todos os tokens da entrada devem ser consumidos, mesmo se maxTokenCount for atingido.consumeAllTokens (type: bool) - Whether all tokens from the input must be consumed even if maxTokenCount is reached. O padrão é falso.The default is false.
minúsculaslowercase (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Normaliza o texto do token para letras minúsculas.Normalizes token text to lower case.
nGram_v2nGram_v2 NGramTokenFilterV2NGramTokenFilterV2 Gera n-gramas de determinados tamanhos.Generates n-grams of the given size(s).

OpçõesOptions

minGram (tipo: int) – padrão: 1, máximo: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (tipo: int) – padrão: 2, máximo 300.maxGram (type: int) - Default: 2, maximum 300. Deve ser maior que minGram.Must be greater than minGram.
pattern_capturepattern_capture PatternCaptureTokenFilterPatternCaptureTokenFilter Usa regexes Java para emitir vários tokens, um para cada grupo de captura em um ou mais padrões.Uses Java regexes to emit multiple tokens, one for each capture group in one or more patterns.

OpçõesOptions

patterns (ttipo: cadeia de caracteres) — uma lista de padrões para combinar com cada token.patterns (type: string array) - A list of patterns to match against each token. Obrigatórios.Required.

preserveOriginal (tipo: bool) — defina como true para retornar o token original, mesmo que um dos padrões corresponda, padrão: truepreserveOriginal (type: bool) - Set to true to return the original token even if one of the patterns matches, default: true
pattern_replacepattern_replace PatternReplaceTokenFilterPatternReplaceTokenFilter Um filtro de token que aplica um padrão a cada token no fluxo, substituindo as ocorrências de correspondência pela cadeia de caracteres de substituição especificada.A token filter which applies a pattern to each token in the stream, replacing match occurrences with the specified replacement string.

OpçõesOptions

pattern (tipo: cadeia de caracteres) — obrigatório.pattern (type: string) - Required.

replacement (tipo: cadeia de caracteres) — obrigatório.replacement (type: string) - Required.
persian_normalizationpersian_normalization (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Aplica a normalização para persa.Applies normalization for Persian.
phoneticphonetic PhoneticTokenFilterPhoneticTokenFilter Crie tokens para correspondências fonéticas.Create tokens for phonetic matches.

OpçõesOptions

encoder (tipo: cadeia de caracteres) — codificador fonético a ser usado.encoder (type: string) - Phonetic encoder to use. Entre os valores permitidos estão: "metaphone", "doubleMetaphone", "soundex", "refinedSoundex", "caverphone1", "caverphone2", "cologne", "nysiis", "koelnerPhonetik", "haasePhonetik", "beiderMorse".Allowed values include: "metaphone", "doubleMetaphone", "soundex", "refinedSoundex", "caverphone1", "caverphone2", "cologne", "nysiis", "koelnerPhonetik", "haasePhonetik", "beiderMorse". Padrão: "metaphone".Default: "metaphone". O padrão é "metaphone".Default is metaphone.

Confira encoder para obter mais informações.See encoder for more information.

replace (tipo: bool) — true se os tokens codificados devem substituir os tokens originais, false se eles devem ser adicionados como sinônimos.replace (type: bool) - True if encoded tokens should replace original tokens, false if they should be added as synonyms. O padrão é true.The default is true.
porter_stemporter_stem (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Transforma o fluxo de token conforme o Algoritmo de stemming de Porter.Transforms the token stream as per the Porter stemming algorithm.
ordemreverse (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Inverte a cadeia de caracteres do token.Reverses the token string.
scandinavian_normalizationscandinavian_normalization (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Normaliza o uso de caracteres escandinavos intercambiáveis.Normalizes use of the interchangeable Scandinavian characters.
scandinavian_foldingscandinavian_folding (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Dobra os caracteres escandinavos åÅäæÄÆ->a e öÖøØ->o.Folds Scandinavian characters åÅäæÄÆ->a and öÖøØ->o. Também discrimina o uso de vogais duplas aa, ae, SOL, oe e oo, deixando apenas o primeiro deles.It also discriminates against use of double vowels aa, ae, ao, oe and oo, leaving just the first one.
shingleshingle ShingleTokenFilterShingleTokenFilter Cria combinações de tokens como um único token.Creates combinations of tokens as a single token.

OpçõesOptions

maxShingleSize (tipo: int) — o padrão é 2.maxShingleSize (type: int) - Defaults to 2.

minShingleSize (tipo: int) — o padrão é 2.minShingleSize (type: int) - Defaults to 2.

outputUnigrams (tipo: bool) — se true, o fluxo de saída contém os tokens de entrada (unigramas), bem como shingles.outputUnigrams (type: bool) - if true, the output stream contains the input tokens (unigrams) as well as shingles. O padrão é true.The default is true.

outputUnigramsIfNoShingles (tipo: bool) — se true, substitui o comportamento outputUnigrams==false para aqueles momentos em que não existem shingles disponíveis.outputUnigramsIfNoShingles (type: bool) - If true, override the behavior of outputUnigrams==false for those times when no shingles are available. O padrão é falso.The default is false.

tokenSeparator (tipo: cadeia de caracteres) — a cadeia de caracteres a ser usada ao unir os tokens adjacentes para formar um shingle.tokenSeparator (type: string) - The string to use when joining adjacent tokens to form a shingle. O padrão é " ".The default is " ".

filterToken (tipo: cadeia de caracteres) — a cadeia de caracteres a ser inserida para cada posição na qual não há token.filterToken (type: string) - The string to insert for each position at which there is no token. O padrão é “”.The default is "".
snowballsnowball SnowballTokenFilterSnowballTokenFilter Filtro Snowball Token.Snowball Token Filter.

OpçõesOptions

language (tipo: cadeia de caracteres) — entre os valores permitidos estão: "armenian", "basque", "catalan", "danish", "dutch", "english", "finnish", "french", "german", "german2", "hungarian", "italian", "kp", "lovins", "norwegian", "porter", "portuguese", "romanian", "russian", "spanish", "swedish", "turkish"language (type: string) - Allowed values include: "armenian", "basque", "catalan", "danish", "dutch", "english", "finnish", "french", "german", "german2", "hungarian", "italian", "kp", "lovins", "norwegian", "porter", "portuguese", "romanian", "russian", "spanish", "swedish", "turkish"
sorani_normalizationsorani_normalization SoraniNormalizationTokenFilterSoraniNormalizationTokenFilter Normaliza a representação Unicode de texto Sorani.Normalizes the Unicode representation of Sorani text.

OpçõesOptions

Nenhum.None.
stemmerstemmer StemmerTokenFilterStemmerTokenFilter Filtro de lematização específica de idioma.Language-specific stemming filter.

OpçõesOptions

language (tipo: cadeia de caracteres) — entre os valores permitidos estão:language (type: string) - Allowed values include:
- árabe- "arabic"
- armênio- "armenian"
- Basco- "basque"
- (- "brazilian"
-"búlgaro"- "bulgarian"
- Catalão- "catalan"
- tcheco- "czech"
- dinamarquês- "danish"
- holandesas- "dutch"
- "dutchKp"- "dutchKp"
- portuguesa- "english"
- "lightEnglish"- "lightEnglish"
- "minimalEnglish"- "minimalEnglish"
- "possessiveEnglish"- "possessiveEnglish"
- "porter2"- "porter2"
- "lovins"- "lovins"
- finlandesa- "finnish"
- "lightFinnish"- "lightFinnish"
- francesa- "french"
- "lightFrench"- "lightFrench"
- "minimalFrench"- "minimalFrench"
-"Galego"- "galician"
- "minimalGalician"- "minimalGalician"
- alemão- "german"
- "german2"- "german2"
- "lightGerman"- "lightGerman"
- "minimalGerman"- "minimalGerman"
- Ipsum- "greek"
-"híndi"- "hindi"
- Húngaro- "hungarian"
- "lightHungarian"- "lightHungarian"
- Indonésio- "indonesian"
- Libra- "irish"
- italiano- "italian"
- "lightItalian"- "lightItalian"
- "sorani"- "sorani"
- Letão- "latvian"
- noruegues- "norwegian"
- "lightNorwegian"- "lightNorwegian"
- "minimalNorwegian"- "minimalNorwegian"
- "lightNynorsk"- "lightNynorsk"
- "minimalNynorsk"- "minimalNynorsk"
- Portugal- "portuguese"
- "lightPortuguese"- "lightPortuguese"
- "minimalPortuguese"- "minimalPortuguese"
- "portugueseRslp"- "portugueseRslp"
- Romeno- "romanian"
- Rússia- "russian"
- "lightRussian"- "lightRussian"
- espanhol- "spanish"
- "lightSpanish"- "lightSpanish"
- sueca- "swedish"
- "lightSwedish"- "lightSwedish"
- Lira- "turkish"
stemmer_overridestemmer_override StemmerOverrideTokenFilterStemmerOverrideTokenFilter Quaisquer termos com base no dicionário são marcados como palavras-chave, o que evita a lematização da cadeia.Any dictionary-Stemmed terms are marked as keywords, which prevents stemming down the chain. Deve ser colocado antes de qualquer filtro de lematização.Must be placed before any stemming filters.

OpçõesOptions

rules (tipo: cadeia de caracteres) — regras de stemming rules no seguinte formato "word => stem", por exemplo, "ran => run".rules (type: string array) - Stemming rules in the following format "word => stem" for example "ran => run". O padrão é uma lista vazia.The default is an empty list. Obrigatórios.Required.
palavras irrelevantesstopwords StopwordsTokenFilterStopwordsTokenFilter Remove palavras irrelevantes de um fluxo de tokens.Removes stop words from a token stream. Por padrão, o filtro usa uma lista de palavras irrelevantes predefinida para inglês.By default, the filter uses a predefined stop word list for English.

OpçõesOptions

stopwords (tipo: matriz de cadeia de caracteres) — uma lista de palavras irrelevantes.stopwords (type: string array) - A list of stopwords. Não pode ser especificado se a opção stopwordsList for especificada.Cannot be specified if a stopwordsList is specified.

stopwordsList (tipo: matriz de cadeia de caracteres) — uma lista predefinida de palavras irrelevantes.stopwordsList (type: string) - A predefined list of stopwords. Não pode ser especificado se a opção stopwords for especificada.Cannot be specified if stopwords is specified. Entre os valores permitidos estão:"arabic", "armenian", "basque", "brazilian", "bulgarian", "catalan", "czech", "danish", "dutch", "english", "finnish", "french", "galician", "german", "greek", "hindi", "hungarian", "indonesian", "irish", "italian", "latvian", "norwegian", "persian", "portuguese", "romanian", "russian", "sorani", "spanish", "swedish", "thai", "turkish", padrão: "english".Allowed values include:"arabic", "armenian", "basque", "brazilian", "bulgarian", "catalan", "czech", "danish", "dutch", "english", "finnish", "french", "galician", "german", "greek", "hindi", "hungarian", "indonesian", "irish", "italian", "latvian", "norwegian", "persian", "portuguese", "romanian", "russian", "sorani", "spanish", "swedish", "thai", "turkish", default: "english". Não pode ser especificado se a opção stopwords for especificada.Cannot be specified if stopwords is specified.

ignoreCase (tipo: bool) — se true, primeiro todas as palavras são alteradas para minúsculas.ignoreCase (type: bool) - If true, all words are lower cased first. O padrão é falso.The default is false.

removeTrailing (tipo: bool) — se true, ignora o último termo de pesquisa se for uma palavra irrelevante.removeTrailing (type: bool) - If true, ignore the last search term if it's a stop word. O padrão é true.The default is true.
forneçasynonym SynonymTokenFilterSynonymTokenFilter Corresponde sinônimos de palavras simples ou múltiplas em um fluxo de token.Matches single or multi word synonyms in a token stream.

OpçõesOptions

synonyms (tipo: cadeia de caracteres) — obrigatório.synonyms (type: string array) - Required. Lista de sinônimos em um dos dois formatos a seguir:List of synonyms in one of the following two formats:

-incrível, inacreditável, fabuloso => maravilhoso — todos os termos no lado esquerdo da => são substituídos por todos os termos do lado direito.-incredible, unbelievable, fabulous => amazing - all terms on the left side of => symbol are replaced with all terms on its right side.

-incrível, inacreditável, fabuloso, maravilhoso — uma lista separada por vírgulas de palavras equivalentes.-incredible, unbelievable, fabulous, amazing - A comma-separated list of equivalent words. Defina a opção de expansão para alterar como essa lista é interpretada.Set the expand option to change how this list is interpreted.

ignoreCase (tipo: bool) — entrada e maiúscula/minúscula para correspondência.ignoreCase (type: bool) - Case-folds input for matching. O padrão é falso.The default is false.

expand (tipo: bool) — se true, todas as palavras na lista de sinônimos (se a notação => não for usada) mapeiam uma a outra.expand (type: bool) - If true, all words in the list of synonyms (if => notation is not used) map to one another.
A lista a seguir: incrível, inacreditável, fabuloso, maravilhoso é quivalente a: incrível, inacreditável, fabuloso, maravilhoso => incrível, inacreditável, fabuloso, maravilhosoThe following list: incredible, unbelievable, fabulous, amazing is equivalent to: incredible, unbelievable, fabulous, amazing => incredible, unbelievable, fabulous, amazing

- Se false, a lista a seguir: incrível, inacreditável, fabuloso, maravilhoso é quivalente a: incrível, inacreditável, fabuloso, maravilhoso => incrível, inacreditável, fabuloso, maravilhoso => incrível.- If false, the following list: incredible, unbelievable, fabulous, amazing are equivalent to: incredible, unbelievable, fabulous, amazing => incredible.
cortartrim (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Corta o espaço em branco à esquerda e à direita de uma cadeia de tokens.Trims leading and trailing whitespace from tokens.
truncatetruncate TruncateTokenFilterTruncateTokenFilter Trunca os termos em um comprimento específico.Truncates the terms into a specific length.

OpçõesOptions

comprimento (tipo: int)-padrão: 300, máximo: 300.length (type: int) - Default: 300, maximum: 300. Obrigatórios.Required.
uniqueunique UniqueTokenFilterUniqueTokenFilter Filtra os tokens com o mesmo texto como o token anterior.Filters out tokens with same text as the previous token.

OpçõesOptions

onlyOnSamePosition (tipo: bool) — se definido, remova duplicatas apenas na mesma posição.onlyOnSamePosition (type: bool) - If set, remove duplicates only at the same position. O padrão é true.The default is true.
letras maiúsculasuppercase (o tipo aplica-se somente quando há opções disponíveis)(type applies only when options are available) Normaliza o texto do token para letras maiúsculas.Normalizes token text to upper case.
word_delimiterword_delimiter WordDelimiterTokenFilterWordDelimiterTokenFilter Divide as palavras em subpalavras e realiza transformações opcionais em grupos de subpalavras.Splits words into subwords and performs optional transformations on subword groups.

OpçõesOptions

generateWordParts (tipo: bool) — faz com que partes de palavras sejam geradas, por exemplo "AzureSearch" torna-se "Azure" "Search".generateWordParts (type: bool) - Causes parts of words to be generated, for example "AzureSearch" becomes "Azure" "Search". O padrão é true.The default is true.

generateNumberParts (tipo: bool) — faz com que subpalavras de números sejam geradas.generateNumberParts (type: bool) - Causes number subwords to be generated. O padrão é true.The default is true.

catenateWords (tipo: bool) — faz com que execuções máximas de partes de palavras sejam unidas, por exemplo "Azure-Search" torna-se "AzureSearch".catenateWords (type: bool) - Causes maximum runs of word parts to be catenated, for example "Azure-Search" becomes "AzureSearch". O padrão é falso.The default is false.

catenateNumbers (tipo: bool) — faz com que execuções máximas de número de blocos sejam unidas, por exemplo "1-2" torna-se "12".catenateNumbers (type: bool) - Causes maximum runs of number parts to be catenated, for example "1-2" becomes "12". O padrão é falso.The default is false.

catenateAll (tipo: bool) — faz com que todas as partes de subpalavras sejam aglutinadas, por exemplo, "Azure-Search-1" torna-se "AzureSearch1".catenateAll (type: bool) - Causes all subword parts to be catenated, e.g "Azure-Search-1" becomes "AzureSearch1". O padrão é falso.The default is false.

splitOnCaseChange (tipo: bool) — se true, divide palavras com base em mudança de maiúscula/minúscula, por exemplo, "AzureSearch" torna-se "Azure" "Search".splitOnCaseChange (type: bool) - If true, splits words on caseChange, for example "AzureSearch" becomes "Azure" "Search". O padrão é true.The default is true.

preserveOriginal — faz com que as palavras originais sejam preservadas e adicionadas à lista de subpalavras.preserveOriginal - Causes original words to be preserved and added to the subword list. O padrão é falso.The default is false.

splitOnNumerics (tipo: bool) — se true, divide com números, por exemplo, "Azure1Search" torna-se "Azure" "1" "Search".splitOnNumerics (type: bool) - If true, splits on numbers, for example "Azure1Search" becomes "Azure" "1" "Search". O padrão é true.The default is true.

stemEnglishPossessive (tipo: bool) — faz com que o "s" à direita seja removido para cada subpalavra.stemEnglishPossessive (type: bool) - Causes trailing "'s" to be removed for each subword. O padrão é true.The default is true.

protectedWords (tipo: cadeia de caracteres) — tokens a proteger contra a delimitação.protectedWords (type: string array) - Tokens to protect from being delimited. O padrão é uma lista vazia.The default is an empty list.

1 Os tipos de filtro de token são sempre prefixados em código com "#Microsoft.Azure.Search", ou seja, "ArabicNormalizationTokenFilter" na verdade seria "#Microsoft.Azure.Search.ArabicNormalizationTokenFilter".1 Token Filter Types are always prefixed in code with "#Microsoft.Azure.Search" such that "ArabicNormalizationTokenFilter" would actually be specified as "#Microsoft.Azure.Search.ArabicNormalizationTokenFilter". Removemos o prefixo para reduzir a largura da tabela, mas lembre-se de incluí-lo em seu código.We removed the prefix to reduce the width of the table, but please remember to include it in your code.

Confira tambémSee also