Erstellen eines Benutzerwörterbuchs (SharePoint Server 2010)
Gilt für: SharePoint Server 2010
Letztes Änderungsdatum des Themas: 2015-07-06
Ein Benutzerwörterbuch ist eine vom Administrator erstellte Datei, um Token anzugeben, die die Wörtertrennung einer bestimmten Sprache zum Indizierungs- und Abfragezeitpunkt als nicht trennbare Wörter betrachten soll. Benutzerwörterbücher werden nicht mit dem Produkt bereitgestellt. Sie müssen ein separates Benutzerwörterbuch für jede Sprache erstellen, für die Sie das Verhalten der Wörtertrennung ändern möchten.
Hinweis
Ein Benutzerwörterbuch für eine bestimmte Sprache gilt für alle Suchdienstanwendungen in der Serverfarm.
Inhalt dieses Artikels:
Gründe für die Verwendung eines Benutzerwörterbuchs
Regeln zum Erstellen eines Benutzerwörterbuchs
Erstellen eines Benutzerwörterbuchs
Kopieren des Benutzerwörterbuchs auf die Anwendungsserver
Beenden und erneutes Starten des SharePoint Server Search 14-Diensts auf den Anwendungsservern
Ausführen einer vollständigen Durchforstung
Unterstützte Sprachen
Gründe für die Verwendung eines Benutzerwörterbuchs
Sie sollten die Verhaltensweise von Wörtertrennungen kennen, um zu verstehen, ob Sie ein Benutzerwörterbuch benötigen und welche Einträge darin enthalten sollen. Mithilfe der Wörtertrennung werden vom Indizierungssystem Token getrennt, wenn der Inhalt indiziert wird. Die Wörtertrennung wird auch vom Abfrageprozessor in Abfragen verwendet. In beiden Fällen gilt, dass beim Vorhandsein eines Benutzerwörterbuchs, das die Sprache und den Dialekt der verwendeten Wörtertrennung unterstützt, das Suchsystem überprüft, ob das Wort im Benutzerwörterbuch vorhanden ist. Erst dann wird festgelegt, ob die Wörtertrennung für das Wort verwendet wird. Wenn das Wort nicht im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung die üblichen Aktionen aus, durch die ein Token möglicherweise in mehrere Token unterteilt wird. Wenn das Token im Benutzerwörterbuch vorhanden ist, führt die Wörtertrennung keine Aktionen für dieses Token aus. In den folgenden beiden Beispielen werden das typische Verhalten der Wörtertrennung und die Auswirkungen eines Eintrags im Benutzerwörterbuch auf dieses Verhalten beschrieben.
Das Token "IT&T" wird von einer Wörtertrennung möglicherweise direkt vor und nach dem kaufmännischen Und-Zeichen (&) unterteilt, wodurch sich die drei Token "IT", "&" und "T" ergeben. Wenn das Token "IT&T" allerdings im Benutzerwörterbuch derselben Sprache wie die verwendete Wörtertrennung vorhanden ist, wird dieses Token von der Wörtertrennung (zum Durchforstungs- oder Abfragezeitpunkt) nicht unterteilt. Falls "IT&T" im Benutzerwörterbuch vorhanden ist und ein Dokument nicht "IT" oder "T", aber "IT&T" enthält, wird von einer Abfrage, die "IT" oder "T", aber nicht "IT&T" enthält, dieses Dokument nicht im Resultset zurückgegeben.
Begriffe wie CAS-Registrierungsnummern (Chemical Abstracts Service) können von der Wörtertrennung betroffen sein. Beispielsweise werden einzelne Zahlen, die vor oder nach einem Bindestrich oder einem anderen Sonderzeichen stehen, von der Wörtertrennung in der Regel von der restlichen Zahl getrennt. So ist etwa 7782-44-7 die CAS-Registrierungsnummer für Sauerstoff. Nach der Verarbeitung durch die Wörtertrennung wird diese CAS-Registrierungsnummer in drei Komponenten unterteilt, nämlich in die Zahlen 7782, 44 und 7. Durch Hinzufügen der CAS-Registrierungsnummern aus einem Text zu einem Benutzerwörterbuch, wird das Suchsystem angewiesen, die Nummern zu indizieren, ohne dass sie in separate Komponenten unterteilt werden.
Normalisierungen und Thesaurusdateien
Normalisierungen von benannten Entitäten wie etwa Datumsnormalisierungen, die normalerweise von Wörtertrennungen angewendet werden, werden nicht auf Ausdrücke in Benutzerwörterbüchern angewendet. Stattdessen werden alle in Ausdrücken in Benutzerwörterbüchern als Übereinstimmung behandelt. Dies ist besonders wichtig, wenn Wörter oder Zahlen in einer Thesaurusdatei vorhanden sind. Wenn beispielsweise die CAS-Registrierungsnummer 7782-44-7 Teil einer Erweiterungsgruppe im Thesaurus ist und diese Nummer von der Wörtertrennung an den Bindestrichen in drei separate Zahlen unterteilt wird, verhält sich die Erweiterungsgruppe, zu der die Zahl gehört, möglicherweise nicht erwartungsgemäß. In diesem Fall wird das Problem durch Hinzufügen der CAS-Registrierungsnummer 7782-44-7 zum Benutzerwörterbuch der entsprechende Sprache behoben. Weitere Informationen zum Verwenden von Thesaurusdateien finden Sie unter Verwalten von Thesaurusdateien (SharePoint Server 2010).
Regeln zum Erstellen eines Benutzerwörterbuchs
Bei einem Benutzerwörterbuch handelt es sich um eine Datei im Unicode-Format. Alle Einträge müssen in separaten Zeilen vorhanden sein, die durch einen Wagenrücklauf (CR) und einen Zeilenvorschub (LF) voneinander getrennt werden. Beachten Sie beim Hinzufügen von Einträgen zu einem Benutzerwörterbuch die folgenden Regeln, um unerwartete Ergebnisse zu vermeiden:
Bei Einträgen wird die Groß-/Kleinschreibung nicht beachtet.
Der senkrechte Strich (|) darf nicht verwendet werden.
Leerzeichen dürfen nicht verwendet werden.
Das Nummernzeichen (#) darf nicht am Anfang eines Eintrags verwendet werden, aber innerhalb oder am Ende eines Eintrags.
Mit Ausnahme der bereits erwähnten senkrechten Striche, Nummernzeichen und Leerzeichen sind alle alphanumerischen Zeichen, Interpunktionszeichen und Umbruchzeichen zulässig.
Die maximale Länge eines Eintrags beträgt 128 (Unicode-) Zeichen.
Die folgende Tabelle enthält Beispiele für unterstützte und nicht unterstützte Einträge.
Tabelle 1 – Beispiele für unterstützte und nicht unterstützte Einträge für Benutzerwörterbuch-Dateien
Unterstützt | Nicht unterstützt |
---|---|
Hausboot |
Haus Boot |
3# |
#3 |
Zu#verkaufen |
Zu|verkaufen |
ASP.NET |
|
IT&T |
|
(2-Methoxymethylethoxy)Propanol |
|
34590-97-8 |
|
C7H1603 |
Es gibt keinen festen Grenzwert für die Anzahl von Einträgen in einem Benutzerwörterbuch. Es wird jedoch empfohlen, dass eine Benutzerwörterbuch die Dateigröße von insgesamt 2 GB nicht überschreitet. In der Praxis sollten Sie die Anzahl von Einträgen auf ein paar Tausend Einträge begrenzen.
Erstellen eines Benutzerwörterbuchs
Verwenden Sie das folgende Verfahren, um ein Benutzerwörterbuch zu erstellen.
So erstellen Sie ein Benutzerwörterbuch
Stellen Sie sicher, dass das Benutzerkonto, mit dem dieser Vorgang ausgeführt wird, ein Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.
Melden Sie sich an einem Durchforstungsserver an.
Öffnen Sie eine neue Datei in einem Text-Editor.
Geben Sie die gewünschten Wörter im Benutzerwörterbuch gemäß den weiter oben in diesem Artikel unter Regeln zum Erstellen eines Benutzerwörterbuchs beschriebenen Regeln ein.
Klicken Sie im Menü Datei auf Speichern unter.
Wählen Sie in der Liste Dateityp die Option Alle Dateien aus.
Wählen Sie in der Liste Codierung die Option Unicode aus.
Geben Sie im Feld Dateiname den Dateinamen im folgenden Format ein: CustomNNNN.lex. Dabei ist Custom eine Literalzeichenfolge, NNNN ist der vierstellige Hexadezimalcode der Sprache, für die Sie das Benutzerwörterbuch erstellen, und lex ist die Dateinamenerweiterung. Eine Liste gültiger Dateinamen für unterstützte Sprachen und Dialekte finden Sie unter Unterstützte Sprachen weiter oben in diesem Artikel.
Wechseln Sie in der Liste Speichern in zu dem Ordner mit den Wörtertrennungen. Standardmäßig handelt es sich dabei um den Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin.
Hinweis
Benutzerwörterbücher können nur verwendet werden, wenn sie in diesem Ordner des lokalen Dateisystems gespeichert werden. Sie können nicht verwendet werden, wenn sie beispielsweise nur in einer SharePoint-Website gespeichert werden.
Klicken Sie auf Speichern.
Falls keine weiteren Durchforstungs- oder Abfrageserver in der Farm vorhanden sind, fahren Sie mit Beenden und erneutes Starten des SharePoint Server Search 14-Diensts auf den Anwendungsservern fort. Andernfalls fahren Sie mit dem nächsten Verfahren fort, "Kopieren des Benutzerwörterbuchs auf die Anwendungsserver".
Kopieren des Benutzerwörterbuchs auf die Anwendungsserver
Eine Kopie des Benutzerwörterbuchs muss auf jedem Anwendungsserver in der Serverfarm vorhanden sein.
So kopieren Sie das Benutzerwörterbuch auf die Anwendungsserver
Stellen Sie sicher, dass das Benutzerkonto, mit dem dieses Verfahren ausgeführt wird, Mitglied der Gruppe Administratoren auf jedem Anwendungsserver (d. h., jedem Durchforstungs- oder Abfrageserver) in der Serverfarm ist.
Kopieren Sie auf jedem Anwendungsserver in der Serverfarm die neue Benutzerwörterbuch-Datei in den Ordner mit den Wörtertrennungen. Standardmäßig handelt es sich dabei um den Ordner %ProgramFiles%\Microsoft Office Servers\14.0\Bin.
Hinweis
Benutzerwörterbücher können nur verwendet werden, wenn sie in diesem Ordner des lokalen Dateisystems gespeichert werden. Sie können nicht verwendet werden, wenn sie beispielsweise nur in einer SharePoint-Website gespeichert werden.
Beenden und erneutes Starten des SharePoint Server Search 14-Diensts auf den Anwendungsservern
Sie müssen den SharePoint Server Search 14-Dienst auf jedem Anwendungsserver in der Serverfarm beenden und erneut starten.
Wichtig
Verwenden Sie nicht die Seite Dienste auf dem Server der Zentraladministration, um den Dienst zu beenden und zu starten. Dadurch wird der Dienst entfernt, und der Index und die zugehörige Konfiguration werden gelöscht. Führen Sie stattdessen die folgenden Schritte aus.
So beenden Sie den SharePoint Server 14-Suchdienst auf jedem Anwendungsserver und starten ihn erneut
Stellen Sie sicher, dass das Benutzerkonto, mit dem dieser Vorgang ausgeführt wird, ein Mitglied der Gruppe Administratoren auf dem lokalen Computer ist.
Zeigen Sie im Startmenü auf Alle Programme, zeigen Sie auf Verwaltung, und klicken Sie dann auf Dienste.
Klicken Sie mit der rechten Maustaste auf den Dienst SharePoint Server Search 14, und klicken Sie dann auf Eigenschaften. Das Dialogfeld Eigenschaften wird angezeigt.
Klicken Sie auf Anhalten. Nachdem der Dienst angehalten wurde, klicken Sie auf Starten.
Stellen Sie sicher, dass Starttyp nicht auf Deaktiviert festgelegt ist.
Wiederholen Sie dieses Verfahren für jeden Anwendungsserver (d. h., jeden Durchforstungs- und Abfrageserver) in der Serverfarm.
Ausführen einer vollständigen Durchforstung
Zum Anwenden des Benutzerwörterbuchs auf den Inhaltsindex müssen Sie eine vollständige Durchforstung für die Inhalte ausführen, die die Token enthalten, die Sie dem Benutzerwörterbuch hinzugefügt haben. Informationen zum Ausführen einer vollständigen Durchforstung finden Sie unter Verwalten der Durchforstung (SharePoint Server 2010).
Unterstützte Sprachen
In der folgenden Tabelle werden die Sprachen und Dialekte aufgelistet, für die SharePoint Server 2010 Benutzerwörterbücher unterstützt. Für die sprachneutrale Wörtertrennung kann kein Benutzerwörterbuch erstellt werden. Diese Tabelle enthält die Sprachecode-ID (Language Code Identifier, LCID) und den Hexadezimalsprachcode für alle unterstützten Sprachen und Dialekte. Die ersten beiden Zahlen des Hexadezimalcodes stellen den Dialekt und die letzten beiden Zahlen die Sprache dar. Für Sprachen, die nicht über separate Wörtertrennungen für separate Dialekte verfügen, sind die ersten beiden Zahlen des Hexadezimalsprachcodes immer Nullen.
Tabelle 2 – Unterstützte Sprachen
Sprache/Dialekt | LCID | Hexadezimalsprachcode |
---|---|---|
Arabisch |
1025 |
0001 |
Bengali |
1093 |
0045 |
Bulgarisch |
1026 |
0002 |
Katalanisch |
1027 |
0003 |
Kroatisch |
1050 |
001a |
Dänisch |
1030 |
0006 |
Niederländisch |
1043 |
0013 |
Englisch |
1033 |
0009 |
Französisch |
1036 |
000c |
Deutsch |
1031 |
0007 |
Gudscharati |
1095 |
0047 |
Hebräisch |
1037 |
000d |
Hindi |
1081 |
0039 |
Isländisch |
1039 |
000f |
Indonesisch |
1057 |
0021 |
Italienisch |
1040 |
0010 |
Japanisch |
1041 |
0011 |
Kannada |
1099 |
004b |
Lettisch |
1062 |
0026 |
Litauisch |
1063 |
0027 |
Malaiisch |
1086 |
003e |
Malajalim |
1100 |
004c |
Marathi |
1102 |
004e |
Norwegisch (Bokmaal) |
1044 |
0414 |
Portugiesisch |
2070 |
0816 |
Portugiesisch (Brasilien) |
1046 |
0416 |
Punjabi |
1094 |
0046 |
Rumänisch |
1048 |
0018 |
Russisch |
1049 |
0019 |
Serbisch (Kyrillisch) |
3098 |
0c1a |
Serbisch (Lateinisch) |
2074 |
081a |
Slowakisch |
1051 |
001b |
Slowenisch |
1060 |
0024 |
Spanisch |
3082 |
000a |
Schwedisch |
1053 |
001d |
Tamilisch |
1097 |
0049 |
Telugu |
1098 |
004a |
Ukrainisch |
1058 |
0022 |
Urdu |
1056 |
0020 |
Vietnamesisch |
1066 |
002a |