Créer un dictionnaire personnel

S’APPLIQUE À :  yes-img-13 2013  yes-img-16 2016  yes-img-19 2019  yes-img-se Subscription Edition  no-img-sop SharePoint in Microsoft 365

Un dictionnaire personnel est un fichier créé par un administrateur pour spécifier les unités lexicales que l’analyseur lexical d’une langue donnée doit traiter comme indivisibles au moment de l’indexation et au moment de la requête. Les fichiers de dictionnaire personnel ne sont pas fournis avec le produit. Vous devez créer un dictionnaire personnel distinct pour chaque langue pour laquelle vous voulez modifier le comportement d’un analyseur lexical.

Notes

Un dictionnaire personnel pour une langue donnée s’applique à toutes les applications de service de recherche dans la batterie de serveurs.

Dans cet article :

  • Motifs d’utilisation d’un dictionnaire personnel

  • Règles en matière de création d’un dictionnaire personnel

  • Créer un dictionnaire personnel

  • Copier le dictionnaire personnel sur chaque serveur d’applications

  • Arrêter et redémarrer le service SharePoint Server Search 14

  • Effectuer une analyse complète

  • Langues prises en charge

Motifs d’utilisation d’un dictionnaire personnel

Pour savoir si vous avez besoin d’un dictionnaire personnel et quelles entrées celui-ci doit contenir, il est utile de comprendre le comportement des analyseurs lexicaux. Ces derniers sont utilisés par le système d’indexation pour découper les unités lexicales lors de l’indexation du contenu analysé, et le processeur de requêtes utilise des analyseurs lexicaux dans les requêtes. Dans les deux cas, si un dictionnaire personnel existe et qu’il prend en charge la langue et le dialecte de l’analyseur lexical utilisé, le système de recherche détermine si le mot figure dans le dictionnaire personnel avant d’utiliser l’analyseur lexical pour ce mot. Si le mot est absent du dictionnaire personnel, l’analyseur lexical effectue ses opérations habituelles, ce qui peut entraîner le découpage du mot en plusieurs unités lexicales. Si l’unité lexicale est présente dans le dictionnaire personnel, l’analyseur lexical n’effectue aucune opération sur cette unité lexicale. Les exemples ci-dessous décrivent le comportement classique de l’analyseur lexical et indiquent comment une entrée dans le dictionnaire personnel peut influencer ce comportement.

  • Un décomposeur lexiste peut rompre le jeton « IT T » immédiatement avant et après l’eterreur (&), ce qui entraîne les trois jetons « IT », « & » et & « T ». Toutefois, si le jeton « IT T » se trouve dans le dictionnaire personnalisé de la même langue que l’analyseur lexique utilisé, l’analyseur lexique ne le casse pas (au moment de l’analyse ou au moment de la & requête). Si « IT T » se trouve dans le dictionnaire personnalisé, et si un document ne contient pas « IT » ou « T » mais contient « IT T », une requête qui contient « IT » ou « T » mais pas « IT T » ne retourne pas ce document dans le jeu de & & & résultats.

  • Des termes comme les nombres de registre CAS (Chemical Abstracts Service) peuvent être affectés par les analyseurs lexicaux. Par exemple, les analyseurs lexicaux fractionnent généralement les nombres qui s’affichent avant ou après un tiret ou un autre caractère spécial du reste du nombre. « 7782-44-7 » est un exemple de nombre CAS, qui représente l’oxygène dans le registre CAS. Après le traitement par l’analyseur lexical, ce nombre est découpé en trois parties : « 7782 », « 44 » et « 7 ». L’ajout de nombres de registre CAS figurant dans un corpus à un dictionnaire personnel permet au système d’indexer chaque nombre sans le découper en plusieurs parties.

Normalisations et fichiers thesaurus

La normalisation des entités nommées, comme la normalisation des dates, est d’ordinaire appliquée par les analyseurs lexicaux et n’est pas appliquée aux termes figurant dans des dictionnaires personnels. Au lieu de cela, tous les termes figurant dans des dictionnaires personnels sont traités comme des correspondances. Cela s’avère particulièrement important pour des mots ou des nombres apparaissant dans un fichier du dictionnaire des synonymes. Par exemple, si le nombre de registre CAS « 7782-44-7 » fait partie d’une série de nombres dans le dictionnaire des synonymes et que l’analyseur lexical fractionne ce nombre en trois nombres au niveau des tirets, la série de nombres à laquelle appartient ce nombre peut ne pas fonctionner de la manière escomptée. En pareil cas, l’ajout du nombre de registre CAS « 7782-44-7 » au dictionnaire personnel des langues correspondantes suffit à résoudre le problème. Pour plus d’informations sur l’utilisation des fichiers du synonyme, voir Créer et déployer un synonyme dans SharePoint Server.

Règles en matière de création d’un dictionnaire personnel

Un dictionnaire personnel est un fichier au format Unicode. Les entrées doivent se trouver sur des lignes distinctes, séparées par un retour chariot ou un retour à la ligne. Lorsque vous ajoutez des entrées à un dictionnaire personnel, n’oubliez pas les règles ci-dessous pour éviter d’obtenir des résultats inattendus :

  • Les entrées ne respectent pas la casse.

  • Le caractère « | » ne peut pas être utilisé.

  • Un espace vide ne peut être utilisé.

  • Le caractère de signe de nombre ( ) ne peut pas être utilisé au début d’une entrée, mais il peut être utilisé à l’intérieur ou à la fin # d’une entrée.

  • À l’exception des caractères « | » et « # » et de l’espace vide mentionnés précédemment, tous les caractères alphanumériques, signes de ponctuation, symboles et caractères de césure sont valides.

  • La longueur maximale d'une entrée est de 128 caractères (Unicode).

Le tableau ci-dessous contient des exemples d'entrées prises en charge et non prises en charge.

Tableau 1 – Exemples d’entrées prises en charge et non prises en charge dans les fichiers de dictionnaire personnel

Pris en charge Non pris en charge
dog food dog food
3 # #3
For#sale Pour | la vente
ASP.NET
IT & T
(2-Methoxymethylethoxy)propanol
34590-97-8
C7H1603

La limite maximale du nombre d’entrées dans un dictionnaire personnalisé est de 10 000. Aucun paramètre n’est disponible pour modifier cette limite. Toutefois, il est recommandé de ne pas utiliser un fichier de dictionnaire personnel dont la taille dépasse 2 gigaoctets (Go). Dans la pratique, il est recommandé de limiter le nombre d’entrées à quelques milliers.

Créer un dictionnaire personnel

Procédez comme suit pour créer un dictionnaire personnel.

Pour créer un dictionnaire personnel

  1. Vérifiez que le compte d’utilisateur qui effectue cette procédure est un membre du groupe Administrateurs sur l’ordinateur local.

  2. Connectez-vous à un serveur d’analyse.

  3. Ouvre un nouveau fichier dans un éditeur de texte.

    Tapez les mots que vous voulez dans le dictionnaire personnel selon les règles indiquées dans Règles en matière de création d’un dictionnaire personnel plus haut dans cet article.

  4. Dans le menu Fichier, cliquez sur Enregistrer sous.

  5. Dans la liste Type de fichier, sélectionnez Tous les fichiers.

  6. Dans la liste Codage, sélectionnez Unicode.

  7. Dans la zone Nom de fichier, tapez le nom du fichier au format suivant : Custom NNNN.lex, où « Custom » est une chaîne littérale, NNNN est le code langue hexadécimal à quatre chiffres pour laquelle vous créez le dictionnaire personnel, et lex est l’extension de nom de fichier. Pour obtenir la liste des noms de fichier valides pour les langues et les dialectes pris en charge, voir Langues prises en charge plus loin dans cet article.

  8. Dans la liste Enregistrer dans, accédez au dossier qui contient les analyseurs lexicaux. Par défaut, ce dossier est %ProgramFiles% \ Microsoft Office Servers \ 14.0 \ Bin pour SharePoint Server 2010, %ProgramFiles% \ Microsoft Office Servers \ 15.0 \ Bin pour SharePoint Server 2013 et %ProgramFiles% \ Microsoft Office Servers \16.0 \ Bin pour SharePoint Server 2016 et SharePoint Server 2019.

    Notes

    Les fichiers de dictionnaire personnel ne peuvent être utilisés que s’ils sont stockés dans ce dossier dans le système de fichiers local. Ils ne peuvent pas être utilisés s’ils sont uniquement stockés dans un site SharePoint, par exemple.

  9. Cliquez sur Enregistrer.

  10. S’il n’y a pas d’autres serveurs d’analyse ou de requête dans la batterie de serveurs, passez à Arrêter et redémarrer le service SharePoint Server Search 14. Sinon, passez à la procédure suivante : « Copier le dictionnaire personnel sur chaque serveur d’applications ».

Copier le dictionnaire personnel sur chaque serveur d’applications

Une copie du dictionnaire personnel doit se trouver sur chaque serveur d’applications dans la batterie de serveurs.

Pour copier le dictionnaire personnel sur chaque serveur d’applications

  1. Vérifiez que le compte d’utilisateur qui effectue cette procédure est membre du groupe Administrateurs sur chaque serveur d’applications (c’est-à-dire, chaque serveur d’analyse ou serveur de requête) dans la batterie de serveurs.

  2. Sur chaque serveur d’applications dans la batterie de serveurs, copiez le nouveau fichier de dictionnaire personnel dans le dossier qui contient les analyseurs lexicaux. Par défaut, ce dossier est %ProgramFiles% \ Microsoft Office Servers \ 14.0 \ Bin pour SharePoint Server 2010, %ProgramFiles% \ Microsoft Office Servers \ 15.0 \ Bin pour SharePoint Server 2013 et %ProgramFiles% \ Microsoft Office Servers \16.0 \ Bin pour SharePoint Server 2016 et SharePoint Server 2019.

    Notes

    Les fichiers de dictionnaire personnel ne peuvent être utilisés que s’ils sont stockés dans ce dossier dans le système de fichiers local. Ils ne peuvent pas être utilisés s’ils sont uniquement stockés dans un site SharePoint, par exemple.

Arrêter et redémarrer le service SharePoint Server Search 14/15/16 sur chaque serveur d’applications

Vous devez redémarrer le service SharePoint Server Search 14 (pour SharePoint Server 2010), SharePoint Server Search 15 (pour SharePoint Server 2013) ou SharePoint Server Search 16 (pour SharePoint Server 2016 et SharePoint Server 2019) sur chaque serveur d’applications de la batterie.

Important

N’utilisez pas la page Services sur le serveur de l’Administration centrale pour arrêter et démarrer le service, car cela aurait pour effet de supprimer le service, l’index et la configuration associée. Au lieu de cela, procédez comme suit.

Pour arrêter et redémarrer le service SharePoint Server Search 14/15/16 sur chaque serveur d’applications

  1. Vérifiez que le compte d’utilisateur qui effectue cette procédure est un membre du groupe Administrateurs sur l’ordinateur local.

  2. Dans le menu Démarrer, pointez sur Tous les programmes, sur Outils d’administration, puis cliquez sur Services.

  3. Cliquez avec le bouton droit sur le service SharePoint Server Search 14 (pour SharePoint Server 2010), SharePoint Server Search 15 (pour SharePoint Server 2013) ou SharePoint Server Search 16 (pour SharePoint Server 2016 et SharePoint Server 2019), puis cliquez sur Propriétés. La boîte de dialogue Propriétés s’affiche.

  4. Cliquez sur Arrêter. Une fois le service arrêté, cliquez sur Démarrer.

  5. Vérifiez que Type de démarrage n’a pas la valeur Désactivé.

  6. Répétez cette procédure pour chaque serveur d’applications (c’est-à-dire, chaque serveur d’analyse et chaque serveur de requête) dans la batterie de serveurs.

Effectuer une analyse complète

Pour appliquer le dictionnaire personnel à l’index du contenu, vous devez effectuer une analyse complète du contenu contenant les unités lexicales que vous avez ajoutées au dictionnaire personnel. Pour plus d’informations sur l’analyse complète, voir Gérer l’analyse dans SharePoint Server.

Langues prises en charge

Le tableau suivant indique les langues et les dialectes pour lesquels SharePoint Server 2010 prend en charge les dictionnaires personnalisés. Vous ne pouvez pas créer de dictionnaire personnel pour l’analyseur lexical indépendant de la langue. Le tableau inclut également l’identificateur de code de langue (LCID) et le code hexadécimal de la langue pour chaque langue et dialecte pris en charge. Les deux premiers chiffres du code hexadécimal représentent le dialecte et les deux derniers chiffres représentent la langue. Pour les langues qui n’utilisent pas d’analyseurs lexicaux pour des dialectes distincts, les deux premiers chiffres du code hexadécimal de la langue sont toujours des zéros.

Tableau 2 - Langues prises en charge

Langue/Dialecte LCID Code hexadécimal de la langue
Arabe 1025 0001
Bengali 1093 0045
Bulgare 1026 0002
Catalan 1027 0003
Croate 1050 001a
Danois 1030 0006
Néerlandais 1043 0013
Anglais 1033 0009
Français 1036 000c
Allemand 1031 0007
Goudjrati 1095 0047
Hébreu 1037 000d
Hindi 1081 0039
Islandais 1039 000f
Indonésien 1057 0021
Italien 1040 0010
Japonais 1041 0011
Kannada 1099 004b
Letton 1062 0026
Lituanien 1063 0027
Malay 1086 003e
Malayalam 1100 004c
Marathe 1102 004e
Norwegian_Bokmaal 1044 0414
Portugais 2070 0816
Portuguese_Braz 1046 0416
Pendjabi 1094 0046
Roumain 1048 0018
Russe 1049 0019
Serbian_Cyrillic 3098 0c1a
Serbian_Latin 2074 081a
Slovaque 1051 001b
Slovène 1060 0024
Espagnol 3082 000a
Suédois 1053 001d
Tamoul 1097 0049
Télougou 1098 004a
Ukrainien 1058 0022
Ourdou 1056 0020
Vietnamien 1066 002a