Compartilhar via


Criar um dicionário personalizado

APLICA-SE A:yes-img-132013 yes-img-16 2016yes-img-192019 yes-img-seSubscription Edition no-img-sopSharePoint no Microsoft 365

Um dicionário personalizado é um arquivo que um administrador cria para especificar tokens que o quebra-palavras de um idioma específico deve tratar como indivisível no momento do índice e na hora da consulta. Arquivos de dicionário personalizados não são fornecidos com o produto. Você deve criar um dicionário personalizado separado para cada idioma para o qual deseja modificar o comportamento de um quebra-palavras.

Observação

Um dicionário personalizado para um determinado idioma se aplica a todos os aplicativos serviço Pesquisa no farm de servidores.

Neste artigo:

  • Motivos para usar um dicionário personalizado

  • Regras para criar um dicionário personalizado

  • Criar um dicionário personalizado

  • Copiar o dicionário personalizado para cada servidor de aplicativo

  • Parar e reiniciar o serviço do SharePoint Server Search 14

  • Execute um rastreamento completo

  • Idiomas compatíveis

Motivos para usar um dicionário personalizado

Para saber se você deve ter um dicionário personalizado e quais entradas ele deve conter, você deve entender o comportamento dos quebra-palavras. O sistema de indexação usa disjuntores de palavras para quebrar tokens quando indexa o conteúdo rastreado e o processador de consulta usa quebra-palavras em consultas. Em cada caso, se existir um dicionário personalizado que dê suporte à linguagem e ao dialeto do disjuntor de palavras que está sendo usado, o sistema de pesquisa verificará a palavra no dicionário personalizado antes de determinar se deve usar um quebra-palavras para essa palavra. Se a palavra não existir no dicionário personalizado, o quebra-palavras executará suas ações habituais, o que pode resultar na quebra de um token em vários tokens. Se o token existir no dicionário personalizado, o quebra-palavras não executará nenhuma ação nesse token. Os dois exemplos a seguir descrevem o comportamento típico do quebra-palavras e como uma entrada no dicionário personalizado pode afetar esse comportamento.

  • Um quebra-palavras pode quebrar o token "IT&T" imediatamente antes e depois da ampersand (&), resultando nos três tokens "IT", "&" e "T". No entanto, se o token "IT&T" estiver no dicionário personalizado da mesma linguagem que o quebra-palavras que está sendo usado, o quebra-palavras não quebrará esse token (em tempo de rastreamento ou hora da consulta). Se "IT&T" estiver no dicionário personalizado e se um documento não contiver "IT" ou "T", mas contiver "TI&T", uma consulta que contém "IT" ou "T", mas não "TI&T" não retornará esse documento no conjunto de resultados.

  • Termos como números de registro do CAS (Chemical Abstracts Service) podem ser afetados por quebra-palavras. Por exemplo, os quebra-palavras normalmente dividem números que aparecem antes ou depois de um hífen ou outro caractere especial do restante do número. Por exemplo, o número do registro CAS para oxigênio é 7782-44-7. Após o processamento do quebra-palavras, esse número de registro CAS é dividido em três partes: os números 7782, 44 e 7. Adicionar os números do registro CAS que aparecem em um corpus a um dicionário personalizado orienta o sistema de pesquisa a indexar cada número sem quebrá-lo em partes.

Normalizações e arquivos de sinônimos

Normalizações de entidade nomeada, como normalizações de data, normalmente aplicadas por quebra-palavras não são aplicadas a termos que estão em dicionários personalizados. Em vez disso, todos os termos que estão em dicionários personalizados são tratados como uma correspondência. Isso é especialmente importante se você tiver palavras ou números em um arquivo de dicionário. Por exemplo, se o número do registro CAS 7782-44-7 fizer parte de uma expansão definida no dicionário e o disjuntor de palavras dividir esse número nos hifens em três números separados, o conjunto de expansão do qual esse número é parte pode não funcionar conforme o esperado. Nesse caso, adicionar o número do registro CAS 7782-44-7 ao dicionário personalizado da linguagem apropriada resolve o problema. Para obter informações sobre como usar arquivos de dicionário, consulte Criar e implantar um dicionário de dicionários no SharePoint Server.

Regras para criar um dicionário personalizado

Um dicionário personalizado é um arquivo formatado por Unicode. Cada entrada deve estar em uma linha separada, separada por um CR (retorno de transporte) e LF (feed de linha). Ao adicionar entradas a um dicionário personalizado, considere as seguintes regras para evitar resultados inesperados:

  • As entradas não são sensíveis a casos.

  • O caractere pipe (|) não pode ser usado.

  • O espaço em branco não pode ser usado.

  • O caractere de sinal de número (#) não pode ser usado no início de uma entrada, mas pode ser usado dentro ou no final de uma entrada.

  • Exceto pelos caracteres pipe, sinal de número e espaço em branco mencionados anteriormente, todos os caracteres alfanuméricos, pontuação, símbolos e caracteres de quebra são válidos.

  • O comprimento máximo de uma entrada é 128 caracteres (Unicode).

A tabela a seguir mostra exemplos de entradas com e sem suporte.

Tabela 1 – Exemplos de entradas com suporte e sem suporte para arquivos de dicionário personalizados

Com suporte Sem suporte
Dogfood dog food
3# #3
For#sale Para venda|
ASP.NET
TI&T
(2-Methoxymethylethoxy)propanol
34590-97-8
C7H1603

O limite máximo para o número de entradas em um dicionário personalizado é 10.000. Não há configurações disponíveis para alterar esse limite. No entanto, recomendamos que o tamanho total do arquivo de um arquivo de dicionário personalizado não exceda 2 gigabytes (GB). Na prática, sugerimos que você limite o número de entradas para a alguns milhares.

Criar um dicionário personalizado

Use o procedimento a seguir para criar um dicionário personalizado.

Para criar um dicionário personalizado

  1. Verifique se a conta de usuário realizando este procedimento é um membro do grupo Administradores no computador local.

  2. Faça logon em um servidor de rastreamento.

  3. Abra um novo arquivo em um editor de texto.

    Digite as palavras desejadas no dicionário personalizado de acordo com as regras declaradas em Regras para criar um dicionário personalizado anteriormente neste artigo.

  4. No menu Arquivo, clique emSalvar Como.

  5. Na lista Salvar como tipo, selecione Todos os arquivos.

  6. Na lista Codificação, selecione Unicode.

  7. Na caixa Nome do arquivo , digite o nome do arquivo no seguinte formato:NNNN.lex personalizado, em que "Personalizado" é uma cadeia de caracteres literal, NNNN é o código hexadecimal de quatro dígitos da linguagem para a qual você está criando o dicionário personalizado, e lex é a extensão nome do arquivo. Para obter uma lista de nomes de arquivo válidos para idiomas e dialetos com suporte, confira Idiomas com suporte mais adiante neste artigo.

  8. Na lista Salvar, navegue até a pasta que contém os disjuntores de palavras. Por padrão, essa pasta é %ProgramFiles%\Microsoft Office Servers\14.0\Bin para SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin para SharePoint Server 2013 e %ProgramFiles%\Microsoft Office Servers\16.0\Bin para SharePoint Server 2016 e SharePoint Server 2019.

    Observação

    Os arquivos de dicionário personalizados só poderão ser usados se forem armazenados nesta pasta no sistema de arquivos local. Eles não poderão ser usados se forem armazenados apenas em um site do SharePoint, por exemplo.

  9. Clique em Salvar.

  10. Se não houver outros servidores de rastreamento ou servidores de consulta no farm, acesse Parar e reinicie o serviço SharePoint Server Search 14. Caso contrário, vá para o próximo procedimento: "Copiar o dicionário personalizado para cada servidor de aplicativo no farm".

Copiar o dicionário personalizado para cada servidor de aplicativo

Deve haver uma cópia do dicionário personalizado em cada servidor de aplicativo no farm.

Para copiar o dicionário personalizado para cada aplicativo

  1. Verifique se a conta de usuário que está executando esse procedimento é um membro do grupo Administradores em cada servidor de aplicativo (ou seja, cada servidor de rastreamento ou servidor de consulta) no farm.

  2. Em cada servidor de aplicativo no farm, copie o novo arquivo de dicionário personalizado para a pasta que contém os disjuntores de palavras. Por padrão, essa pasta é %ProgramFiles%\Microsoft Office Servers\14.0\Bin para SharePoint Server 2010, %ProgramFiles%\Microsoft Office Servers\15.0\Bin para SharePoint Server 2013 e %ProgramFiles%\Microsoft Office Servers\16.0\Bin para SharePoint Server 2016 e SharePoint Server 2019.

    Observação

    Os arquivos de dicionário personalizados só poderão ser usados se forem armazenados nesta pasta no sistema de arquivos local. Eles não poderão ser usados se forem armazenados apenas em um site do SharePoint, por exemplo.

Parar e reiniciar o serviço SharePoint Server Search 14/15/16 em cada servidor de aplicativo

Você deve reiniciar o SharePoint Server Search 14 (para SharePoint Server 2010), SharePoint Server Search 15 (para SharePoint Server 2013) ou SharePoint Server Search 16 (para SharePoint Server 2016 e SharePoint Server 2019) em cada servidor de aplicativo no farm.

Importante

Não use a página Serviços no Servidor na Administração Central para parar e iniciar o serviço. Isso remove o serviço e exclui o índice e a configuração associada. Em vez disso, siga estas etapas.

Para parar e reiniciar o serviço SharePoint Server Search 14/15/16 em cada servidor de aplicativo

  1. Verifique se a conta de usuário realizando este procedimento é um membro do grupo Administradores no computador local.

  2. No menu Iniciar, aponte para Todos os Programas e para Ferramentas Administrativas e clique em Serviços.

  3. Clique com o botão direito do mouse no SharePoint Server Search 14 (para SharePoint Server 2010), SharePoint Server Search 15 (para SharePoint Server 2013) ou SharePoint Server Search 16 (para o SharePoint Server 2016 e SharePoint Server 2019) e clique em Propriedades. A caixa de diálogo Propriedades é exibida.

  4. Clique em Parar. Quando o serviço parar, clique em Iniciar.

  5. Verifique se o tipo de inicialização não está definido como Desabilitado.

  6. Repita esse procedimento para cada servidor de aplicativo (ou seja, cada servidor de rastreamento e cada servidor de consulta) no farm.

Execute um rastreamento completo

Para aplicar o dicionário personalizado ao índice de conteúdo, você deve executar um rastreamento completo do conteúdo que contém os tokens adicionados ao dicionário personalizado. Para obter informações sobre como executar um rastreamento completo, consulte Gerenciar rastreamento no SharePoint Server.

Idiomas compatíveis

A tabela a seguir indica os idiomas e dialetos para os quais o SharePoint Server 2010 dá suporte a dicionários personalizados. Não é possível criar um dicionário personalizado para o separador de palavras com neutralidade de idioma. A tabela inclui o LCID (identificador de código de idioma) e o código hexadecimal do idioma para cada idioma e dialeto com suporte. Os dois primeiros números no código hexadecimal representam o dialeto e os dois últimos números representam a linguagem. Para linguagens que não têm disjuntores de palavras separados para dialetos separados, os dois primeiros números no código hexadecimal da linguagem são sempre zeros.

Tabela 2 – idiomas com suporte

Idioma/dialeto LCID Código hexadecimal de linguagem
Árabe 1025 0001
Bengali 1093 0045
Búlgaro 1026 0002
Catalão 1027 0003
Croata 1050 001a
Dinamarquês 1030 0006
Holandês 1043 0013
Inglês 1033 0009
Francês 1036 000c
Alemão 1031 0007
Gujarati 1095 0047
Hebraico 1037 000d
Híndi 1081 0039
Islandês 1039 000f
Indonésio 1057 0021
Italiano 1040 0010
Japonês 1041 0011
Kannada 1099 004b
Letão 1062 0026
Lituano 1063 0027
Malay 1086 003e
Malaiala 1100 004c
Marata 1102 004e
Norwegian_Bokmaal 1044 0414
Português 2070 0816
Portuguese_Braz 1046 0416
Punjabi 1094 0046
Romeno 1048 0018
Russo 1049 0019
Serbian_Cyrillic 3098 0c1a
Serbian_Latin 2074 081a
Eslovaco 1051 001b
Esloveno 1060 0024
Espanhol 3082 000a
Sueco 1053 001d
Tamil 1097 0049
Telugu 1098 004a
Ucraniano 1058 0022
Urdu 1056 0020
Vietnamita 1066 002a