Erstellen eines benutzerdefinierten Eigenschaftenextraktionsmoduls

Artikel
09/18/2014

Letzte Änderung: Donnerstag, 23. Juni 2011

Gilt für: SharePoint Server 2010

Inhalt dieses Artikels
Typen von Eigenschaftenextraktionsmodulen
Erstellen eines benutzerdefinierten Eigenschaftenextraktionswörterbuchs
Konfigurieren der benutzerdefinierten Elementverarbeitungsphase für das Eigenschaftenextraktionsmodul
Erstellen der Zuordnung für die verwaltete Eigenschaft
Konfigurieren einer benutzerdefinierten Abfrageeinschränkung

In diesem Artikel wird beschrieben, wie Sie ein benutzerdefiniertes Eigenschaftenextraktionsmodul erstellen:

Typen von Eigenschaftenextraktionsmodulen

Zwei Arten von Eigenschaftenextraktionsmodulen können basierend auf der Übereinstimmung mit ganzen Wörtern oder der Übereinstimmung mit Wortteilen definiert werden.

Eigenschaftenextraktionsmodule für die Übereinstimmung mit ganzen Wörtern

Diese Eigenschaftenextraktionsmodule sind für die Suche nach Übereinstimmungen mit Zeichenfolgen in allen Sprachen außer den ostasiatischen Sprachen geeignet (Koreanisch, Chinesisch, Japanisch und Thailändisch).

Die Einträge im benutzerdefinierten Wörterbuch können einzelne Wörter oder eine Wortzeichenfolge sein. Die Suche nach einer Übereinstimmung mit der Zeichenfolge erfolgt nach einer einfachen Tokenisierung, wobei Trennzeichen (wie z. B. Komma, Satzzeichen, Doppelpunkt und Gedankenstrich) im Text durch Leerzeichen ersetzt werden. Die Extraktionsmodule müssen nach der Tokenisierung eine Übereinstimmung für die komplette Zeichenfolge suchen.

Hinweis
Beim Abgleich wird Groß- und Kleinschreibung unterschieden.

Sie können bis zu drei benutzerdefinierte Eigenschaftenextraktionsmodule für die Übereinstimmung mit ganzen Wörtern in der Pipeline für die Elementverarbeitung definieren. Dabei können Sie die vordefinierten Elementverarbeitungsmodule wholewordsextractor1, wholewordsextractor2 und wholewordsextractor3 verwenden.

Eigenschaftenextraktionsmodule für die Übereinstimmung mit Wortteilen

Diese Eigenschaftenextraktionsmodule sind für die Suche nach Übereinstimmungen mit Zeichenfolgen in allen Dokumenten in ostasiatischen Sprachen geeignet (Koreanisch, Chinesisch, Japanisch und Thailändisch), da Wörter in diesen Sprachen nicht durch Leerzeichen getrennt werden.

Dieses Eigenschaftenextraktionsmodul können Sie auch für spezielle Anwendungsfälle verwenden, in denen Übereinstimmungen mit Teilzeichenfolgen erforderlich sind. Beispielsweise bei der Suche nach einer DNA-Sequenz innerhalb längerer Sequenzen. In diesem Fall würde das benutzerdefinierte Wörterbuch die gesuchten DNA-Sequenzen enthalten, wie z. B. "AAAGTCTGAC". Eine Übereinstimmung mit der in einem Dokument enthaltenen Sequenz "ATATGAATGGAAAGTCTGACTGATATCTGG" würde vorliegen.

Hinweis
Beim Abgleich wird Groß- und Kleinschreibung unterschieden.

Sie können bis zu zwei benutzerdefinierte Eigenschaftenextraktionsmodule für die Übereinstimmung mit Wortteilen in der Pipeline für die Elementverarbeitung definieren. Dabei können Sie die vordefinierten Elementverarbeitungsmodule wordpartsextractor1 und wordpartsextractor2 verwenden.

Elemente mit ostasiatischen und nicht-ostasiatischen Inhalten

Sie sollten die Übereistimmung mit Wortteilen verwenden, wenn der Eintrag im benutzerdefinierten Wörterbuch mit Dokumentzeichenfolgen übereinstimmen soll, die von Wörtern in einer ostasiatischen Sprache umgeben sind.

Fremdwörter in einem chinesischen oder japanischen Dokument werden nämlich nicht immer durch ein Leerzeichen von den chinesischen bzw. japanischen Zeichen getrennt.

Erstellen eines benutzerdefinierten Eigenschaftenextraktionswörterbuchs

Das benutzerdefinierte Wörterbuch definiert, welche Wörter in den indizierten Elementen gesucht und in der zugeordneten verwalteten Eigenschaft indiziert werden. Weitere Informationen zur Syntax von XML-Dateien finden Sie unter Wörterbuchschema. Das benutzerdefinierte Wörterbuch muss das gleiche Format wie im folgenden Beispiel aufweisen. Für jeden Eintrag ist ein Schlüssel und ein Wert erforderlich. Das benutzerdefinierte Wörterbuch muss im UTF-8-Format ohne Bytereihenfolge-Marke (Byte Order Mark, BOM) gespeichert werden. Ein Eintrag ohne Wert ist zulässig. In diesem Fall werden für diesen Schlüssel keine Entitäten extrahiert.

Der Schlüssel ist die Zeichenfolge, die im Element vorhanden sein muss. Bei der Suche nach Übereinstimmung mit dem Schlüssel wird die Groß- und Kleinschreibung beachtet. Fügen Sie dem Wörterbuch alle Schreibvarianten hinzu, damit das Extraktionsmodul die Groß-/Kleinschreibung ignoriert.

Hinweis
Ein Schlüssel sollte keinen Apostroph enthalten. Andernfalls wird für den Ausdruck keine Übereinstimmung gefunden.

Dieser Wert ist die Zeichenfolge, die in die zugeordnete durchforstete Eigenschaft extrahiert wird.

Hinweis
Stellen Sie sicher, dass nach dem schließenden dictionary-Tag keine Leerzeichen oder Zeilenumbrüche vorhanden sind. Andernfalls generiert das Wörterbuch einen Fehler.

Im folgenden Beispiel wird ein Eigenschaftenextraktionswörterbuch definiert, mit dem Ausdrücke im Zusammenhang mit Weinterminologie extrahiert werden. Dieses Beispiel enthält die relevanten Schreibvarianten für die Ausdrücke, damit das Extraktionsmodul die Groß-/Kleinschreibung ignoriert.

<dictionary>
  <entry key="Wine" value="wine" />
  <entry key="wine" value="wine" />
  <entry key="red wine" value="red wine" />
  <entry key="Red wine" value="red wine" />
  <entry key="white wine" value="white wine" />
  <entry key="White wine" value="white wine" />
  <entry key="Chardonnay" value="chardonnay" />
  <entry key="chardonnay" value="chardonnay" />
</dictionary>

Das zugehörige Eigenschaftenextraktionsmodul extrahiert diese Weinausdrücke in die durchforstete Eigenschaft, die der benutzerdefinierten Eigenschaftenextraktionsphase zugeordnet ist. Bei der Übereinstimmungssuche werden unterschiedliche Schreibweisen des Ausdrucks berücksichtigt, und in der resultierenden durchforsteten Eigenschaft wird die Schreibweise normalisiert.

Sie finden Vorlagen für die Eigenschaftenextraktionswörterbücher im folgenden Ressourcenspeicherordner auf dem Verwaltungsserver: %FASTSEARCH%\components\resourcestore\dictionaries\matching\

Wichtig
Für den Fall, dass das Format Ihres Wörterbuchs fehlerhaft ist, werden Sie nur beim Eingeben eines Elements darüber informiert, nicht jedoch beim Hochladen des Wörterbuchs in den Ressourcenspeicher. Das Elementverarbeitungsprotokoll enthält eine Fehlermeldung, dass die Datei wholewords_extraction1.xml aufgrund eines Automatisierungsfehlers (Format des kompilierten Wörterbuchs) nicht kompiliert werden.

Für den Fall, dass das Format Ihres Wörterbuchs fehlerhaft ist, werden Sie nur beim Eingeben eines Elements darüber informiert, nicht jedoch beim Hochladen des Wörterbuchs in den Ressourcenspeicher. Das Elementverarbeitungsprotokoll enthält eine Fehlermeldung, dass die Datei wholewords_extraction1.xml aufgrund eines Automatisierungsfehlers (Format des kompilierten Wörterbuchs) nicht kompiliert werden.

Konfigurieren der benutzerdefinierten Elementverarbeitungsphase für das Eigenschaftenextraktionsmodul

Sie müssen die vordefinierte benutzerdefinierte Eigenschaftenextraktionsphase aktivieren, die Sie verwenden möchten.

So konfigurieren Sie die Elementverarbeitungsphase

Bearbeiten Sie im FAST Search Server 2010 for SharePoint-Verwaltungsknoten den Eintrag %FASTSEARCH%\etc\config_data\DocumentProcessor\OptionalProcessing.xml. Ändern Sie die entsprechende Definition für die benutzerdefinierte Elementeigenschaftsphase, indem Sie den Wert von active in yes ändern. Weitere Informationen finden Sie unter Anpassen von "optionalprocessing.xml".
Geben Sie auf dem Verwaltungsserver an der Windows PowerShell-Eingabeaufforderung den folgenden Befehl ein:

psctrl reset

Hiermit werden alle derzeit im System ausgeführten Elementprozessoren zurückgesetzt.

Laden Sie das benutzerdefinierte Eigenschaftenextraktionswörterbuch mit dem Windows PowerShell-Befehl Add-FASTSearchResource in den Ressourcenspeicher von FAST Search Server 2010 for SharePoint hoch.

Im folgenden Codebeispiel lautet der Name der bearbeiteten Wörterbuchdatei c:\temp\wine_dictionary.xml, und Sie aktualisieren die benutzerdefinierte Eigenschaftenextraktionsphase wholewordsextractor1.

Add-FASTSearchResource -FilePath c:\temp\wine_dictionary.xml -Path dictionaries\matching\wholewords_extraction1.xml

FilePath gibt den Pfad zur benutzerdefinierten Definitionsdatei des Eigenschaftenextraktionsmoduls an. Path gibt den relativen Pfad des Wörterbuchs im Ressourcenspeicher an. Der verwendete Dateiname hängt davon ab, welches Extraktionsmodul Sie konfigurieren möchten. Tabelle 1 zeigt die Beziehung zwischen den verfügbaren Eigenschaftenextraktionsmodulen und dem Dateinamen im Ressourcenspeicher.

Tabelle 1. Beziehung zwischen dem Namen des Extraktionsmoduls und dem Dateinamen im Ressourcenspeicher

Name des Extraktionsmoduls	Dateiname im Ressourcenspeicher (Pfad)
wholewords1	wholewords_extraction1.xml
wholewords2	wholewords_extraction2.xml
wholewords3	wholewords_extraction3.xml
wordparts1	wordparts_extraction1.xml
wordparts2	wordparts_extraction2.xml

Weitere Informationen zu den Ressourcenspeicherbefehlen finden Sie unter Verwaltungs-Cmdlets (FAST Search Server 2010 für SharePoint) auf der Microsoft TechNet-Website.

Erstellen der Zuordnung für die verwaltete Eigenschaft

Wenn Sie die extrahierten Daten in Abfragen oder Abfrageeinschränkungen verwenden möchten, müssen Sie die extrahierte durchforstete Eigenschaft einer verwalteten Eigenschaft im Indexschema zuordnen.

Jeder benutzerdefinierten Eigenschaftenextraktionsphase ist eine durchforstete Eigenschaft zugeordnet, und zwar mit dem Namen wholewords1, wholewords2, wholewords3, wordparts1 und wordparts2. Mit den folgenden Windows PowerShell-Befehlen wird die verwaltete Eigenschaft wineterms erstellt und die durchforstete Eigenschaft wholewords1 der neuen verwalteten Eigenschaft zugeordnet.

$cp = Get-FASTSearchMetadataCrawledProperty -Name wholewords1
$mp = New-FASTSearchMetadataManagedProperty -Name wineterms –type 1
$mp.StemmingEnabled=0
$mp.RefinementEnabled=1
$mp.Update()
New-FASTSearchMetadataCrawledPropertyMapping -ManagedProperty $mp -CrawledProperty $cp

Sie legen den Typ der verwalteten Eigenschaft auf 1 fest, was für den Datentyp string steht.

Der Befehl $mp.StemmingEnabled=0 bedeutet, dass die Wortstammerkennung für diese verwaltete Eigenschaft deaktiviert ist. In den meisten Fällen ist dieses Verhalten für eine extrahierte Eigenschaft erwünscht.

Der Befehl $mp.RefinementEnabled=1 bedeutet, dass die Abfrageeinschränkung für diese verwaltete Eigenschaft aktiviert ist.

Weitere Informationen zu den Windows PowerShell-Befehlen finden Sie unter Verwalten durchforsteter Eigenschaften mithilfe von Windows PowerShell (FAST Search Server 2010 für SharePoint) und Verwalten verwalteter Eigenschaften mithilfe von Windows PowerShell (FAST Search Server 2010 für SharePoint) auf der Microsoft TechNet-Website.

Hinweis
Sie können die Eigenschaftenzuordnung auch auf der grafischen Benutzeroberfläche der FAST Search Server 2010 for SharePoint-Zentraladministration konfigurieren. Weitere Informationen finden Sie unter Eigenschaftenverwaltung auf der Website von Microsoft Office.com.

Konfigurieren einer benutzerdefinierten Abfrageeinschränkung

Das benutzerdefinierte Extraktionsmodul ist damit zwar konfiguriert, aber standardmäßig wird keine Abfrageeinschränkung im Suchdienst-Front-End angezeigt.

Befolgen Sie die Anweisungen unter Hinzufügen einer Einschränkung zum Einschränkungsbereich-Webpart zum Konfigurieren der Einschränkung im Webpart Einschränkungsbereich.

Siehe auch

Konzepte

Wörterbuchschema