Hinzufügen von Analysetools zu einem Azure Search-IndexAdd custom analyzers to an Azure Search index

Ein benutzerdefiniertes Analysetool ist eine bestimmte Art von Textanalysetool, das aus einer benutzerdefinierten Kombination von bestehendem Tokenizer und optionalen Filtern besteht.A custom analyzer is a specific type of text analyzer that consists of a user-defined combination of existing tokenizer and optional filters. Durch die Kombination von Tokenizern und Filtern auf neue Weise können Sie die Textverarbeitung in der Suchmaschine anpassen, um bestimmte Ergebnisse zu erzielen.By combining tokenizers and filters in new ways, you can customize text processing in the search engine to achieve specific outcomes. Sie können beispielsweise ein benutzerdefiniertes Analysetool mit einem Zeichenfilter erstellen, um HTML-Markup zu entfernen, bevor Texteingaben tokenisiert werden.For example, you could create a custom analyzer with a char filter to remove HTML markup before text inputs are tokenized.

Sie können mehrere benutzerdefinierte Analysetools definieren, um die Kombination der Filter zu variieren, aber jedes Feld kann nur ein Analysetool für die Indexierungsanalyse und einen für die Suchanalyse verwenden.You can define multiple custom analyzers to vary the combination of filters, but each field can only use one analyzer for indexing analysis and one for search analysis. Eine Veranschaulichung, wie ein benutzerdefiniertes Analysetool aussieht, finden Sie unter Beispiel für ein benutzerdefiniertes Analysetool.For an illustration of what a customer analyzer looks like, see Custom analyzer example.

ÜbersichtOverview

Einfach ausgedrückt besteht die Rolle einer Engine für die Volltextsuche darin, Dokumente so zu verarbeiten und zu speichern, dass sie effizient abgefragt und abgerufen werden können.The role of a full-text search engine, in simple terms, is to process and store documents in a way that enables efficient querying and retrieval. In erster Linie geht es um das Extrahieren wichtiger Wörter aus Dokumenten, das Einfügen der Wörter in einen Index und das anschließende Verwenden des Index zum Suchen nach Dokumenten, die mit Wörtern einer bestimmten Abfrage übereinstimmen.At a high level, it all comes down to extracting important words from documents, putting them in an index, and then using the index to find documents that match words of a given query. Der Prozess zur Extrahierung von Wörtern aus Dokumenten und Suchabfragen wird als lexikalische Analyse bezeichnet.The process of extracting words from documents and search queries is called lexical analysis. Komponenten, die eine lexikalische Analyse durchführen, werden als Analysetools bezeichnet.Components that perform lexical analysis are called analyzers.

In Azure Search können Sie aus verschiedenen vordefinierten sprachunabhängigen Analysetools in der Tabelle Analysetools oder aus sprachspezifischen Analysetools in Sprachanalysetools (Azure Search-Dienst-REST-API) auswählen.In Azure Search, you can choose from a set of predefined language-agnostic analyzers in the Analyzers table or language-specific analyzers listed in Language analyzers (Azure Search Service REST API). Sie haben auch die Möglichkeit, Ihre eigenen benutzerdefinierten Analysetools zu definieren.You also have an option to define your own custom analyzers.

Mit einem benutzerdefinierten Analysetool können Sie die Kontrolle über den Prozess der Konvertierung von Text in indizierbare und durchsuchbare Token übernehmen.A custom analyzer allows you to take control over the process of converting text into indexable and searchable tokens. Es handelt sich um eine benutzerdefinierte Konfiguration, die aus einem einzelnen vordefinierten Tokenizer, einem oder mehreren Tokenfiltern und einem oder mehreren Zeichenfiltern besteht.It’s a user-defined configuration consisting of a single predefined tokenizer, one or more token filters, and one or more char filters. Der Tokenizer ist für das Aufteilen von Text in Token verantwortlich, und mit den Tokenfiltern werden die Token geändert, die vom Tokenizer ausgegeben werden.The tokenizer is responsible for breaking text into tokens, and the token filters for modifying tokens emitted by the tokenizer. Zeichenfilter werden verwendet, um den Eingabetext vorzubereiten, bevor er vom Tokenizer verarbeitet wird.Char filters are applied for to prepare input text before it is processed by the tokenizer. Beispielsweise kann ein Zeichenfilter bestimmte Zeichen oder Symbole ersetzen.For instance, char filter can replace certain characters or symbols.

Beispiele für häufige Szenarien, die mit benutzerdefinierten Analysemodulen ermöglicht werden:Popular scenarios enabled by custom analyzers include:

  • Phonetische Suche.Phonetic search. Es wird ein phonetischer Filter hinzugefügt, um Suchen basierend auf der Aussprache eines Worts durchführen zu können, anstatt anhand der Schreibweise.Add a phonetic filter to enable searching based on how a word sounds, not how it’s spelled.

  • Deaktivieren der lexikalischen Analyse.Disable lexical analysis. Verwenden Sie die Schlüsselwortanalyse, um durchsuchbare Felder zu erstellen, die nicht analysiert werden.Use the Keyword analyzer to create searchable fields that are not analyzed.

  • Schnelle Präfix-/Suffixsuche.Fast prefix/suffix search. Fügen Sie den „Edge N-gram“-Tokenfilter hinzu, um Präfixe von Wörtern zu indizieren und so den schnellen Abgleich von Präfixen zu ermöglichen.Add the Edge N-gram token filter to index prefixes of words to enable fast prefix matching. Kombinieren Sie dies mit dem Reverse-Tokenfilter, um den Suffixabgleich durchzuführen.Combine it with the Reverse token filter to do suffix matching.

  • Benutzerdefinierte Tokenisierung.Custom tokenization. Verwenden Sie beispielsweise den Whitespace-Tokenizer, um Sätze mit Leerzeichen als Trennzeichen in Token zu unterteilen.For example, use the Whitespace tokenizer to break sentences into tokens using whitespace as a delimiter

  • ASCII-Folding.ASCII folding. Fügen Sie den standardmäßigen ASCII-Folding-Filter hinzu, um diakritische Zeichen wie ö oder ê in Suchbegriffen zu normalisieren.Add the Standard ASCII folding filter to normalize diacritics like ö or ê in search terms.

    Diese Seite enthält eine Liste mit unterstützten Analysetools, Tokenizern, Tokenfiltern und Zeichenfiltern.This page provides a list of supported analyzers, tokenizers, token filters, and char filters. Außerdem finden Sie hier eine Beschreibung von Änderungen an der Indexdefinition mit einem Verwendungsbeispiel.You can also find a description of changes to the index definition with a usage example. Weitere Hintergrundinformationen zur zugrunde liegenden Technologie, die für die Implementierung von Azure Search genutzt wird, finden Sie unter Analysis package summary (Lucene)(Zusammenfassung des Analysemodulpakets (Lucene)).For more background about the underlying technology leveraged in the Azure Search implementation, see Analysis package summary (Lucene). Beispiele für Konfigurationen des Analysetools finden Sie unter Hinzufügen von Analysetools in Azure Search.For examples of analyzer configurations, see Add analyzers in Azure Search.

ValidierungsregelnValidation rules

Die Namen von Analysetools, Tokenizern, Tokenfiltern und Zeichenfiltern müssen eindeutig sein und dürfen nicht den Namen von vordefinierten Analysetools, Tokenizern, Tokenfiltern oder Zeichenfiltern entsprechen.Names of analyzers, tokenizers, token filters, and char filters have to be unique and cannot be the same as any of the predefined analyzers, tokenizers, token filters, or char filters. Bereits verwendete Namen finden Sie im Eigenschaftenverweis.See the Property Reference for names already in use.

Erstellen von benutzerdefinierten AnalysetoolsCreate custom analyzers

Sie definieren benutzerdefinierte Analysetools während der Erstellung des Index.You can define custom analyzers at index creation time. Die Syntax zum Angeben eines benutzerdefinierten Analysetools wird in diesem Abschnitt beschrieben.The syntax for specifying a custom analyzer is described in this section. Sie können sich mit der Syntax vertraut machen, indem Sie sich in Hinzufügen von Analysetools in Azure Search Beispieldefinitionen anschauen.You can also familiarize yourself with the syntax by reviewing sample definitions in Add analyzers in Azure Search.

Eine Analysetooldefinition beinhaltet einen Namen, einen Typ, einen oder mehrere Zeichenfilter, maximal einen Tokenizer und einen oder mehrere Tokenfilter für die Verarbeitung nach der Tokenisierung.An analyzer definition includes a name, a type, one or more char filters, a maximum of one tokenizer, and one or more token filters for post-tokenization processing. Zeichenfilter werden vor der Tokenisierung angewendet.Char filers are applied before tokenization. Tokenfiltern und Zeichenfiltern werden von links nach rechts angewendet.Token filters and char filters are applied from left to right.

Der tokenizer_name ist der Name eines Tokenizers, token_filter_name_1 und token_filter_name_2 sind die Namen von Tokenfiltern, und char_filter_name_1 und char_filter_name_2 sind die Namen von Zeichenfiltern (gültige Werte finden Sie in den Tabellen Tokenizer, Tokenfilter und „Zeichenfilter“).The tokenizer_name is the name of a tokenizer, token_filter_name_1 and token_filter_name_2 are the names of token filters, and char_filter_name_1 and char_filter_name_2 are the names of char filters (see the Tokenizers, Token filters and Char filters tables for valid values).

Die Definition der Analysetools ist ein Teil des größeren Index.The analyzer definition is a part of the larger index. Weitere Informationen zum Rest des Index finden Sie unter Index-API erstellen.See Create Index API for information about the rest of the index.

"analyzers":(optional)[
   {
      "name":"name of analyzer",
      "@odata.type":"#Microsoft.Azure.Search.CustomAnalyzer",
      "charFilters":[
         "char_filter_name_1",
         "char_filter_name_2"
      ],
      "tokenizer":"tokenizer_name",
      "tokenFilters":[
         "token_filter_name_1",
         "token_filter_name_2"
      ]
   },
   {
      "name":"name of analyzer",
      "@odata.type":"#analyzer_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"charFilters":(optional)[
   {
      "name":"char_filter_name",
      "@odata.type":"#char_filter_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"tokenizers":(optional)[
   {
      "name":"tokenizer_name",
      "@odata.type":"#tokenizer_type",
      "option1":value1,
      "option2":value2,
      ...
   }
],
"tokenFilters":(optional)[
   {
      "name":"token_filter_name",
      "@odata.type":"#token_filter_type",
      "option1":value1,
      "option2":value2,
      ...
   }
]

Hinweis

Benutzerdefinierte Analysemodule, die Sie erstellen, werden im Azure-Portal nicht verfügbar gemacht.Custom analyzers that you create are not exposed in the Azure portal. Die einzige Möglichkeit, ein benutzerdefiniertes Analysetool hinzuzufügen, ist die Verwendung von Code, mit dem beim Definieren eines Index Aufrufe an die API durchgeführt werden.The only way to add a custom analyzer is through code that makes calls to the API when defining an index.

Innerhalb einer Indexdefinition können Sie diesen Abschnitt an beliebiger Stelle im Hauptteil einer Anforderung zum Erstellen eines Index platzieren, aber normalerweise wird er am Ende platziert:Within an index definition, you can place this section anywhere in the body of a create index request but usually it goes at the end:

{
  "name": "name_of_index",
  "fields": [ ],
  "suggesters": [ ],
  "scoringProfiles": [ ],
  "defaultScoringProfile": (optional) "...",
  "corsOptions": (optional) { },
  "analyzers":(optional)[ ],
  "charFilters":(optional)[ ],
  "tokenizers":(optional)[ ],
  "tokenFilters":(optional)[ ]
}

Definitionen für Zeichenfilter, Tokenizer und Tokenfilter werden dem Index nur hinzugefügt, wenn Sie benutzerdefinierte Optionen festlegen.Definitions for char filters, tokenizers, and token filters are added to the index only if you are setting custom options. Um einen vorhandenen Filter oder Tokenizer unverändert zu verwenden, geben Sie ihn in der Analysetooldefinition namentlich an.To use an existing filter or tokenizer as-is, specify it by name in the analyzer definition.

Testen von benutzerdefinierten AnalysetoolsTest custom analyzers

Sie können den Vorgang Analysetool testen in der REST-API verwenden, um zu sehen, wie ein Analysetool bestimmten Text in Token zerlegt.You can use the Test Analyzer operation in the REST API to see how an analyzer breaks given text into tokens.

AnforderungRequest

  POST https://[search service name].search.windows.net/indexes/[index name]/analyze?api-version=[api-version]
  Content-Type: application/json
    api-key: [admin key]

  {
     "analyzer":"my_analyzer",
     "text": "Vis-à-vis means Opposite"
  }

AntwortResponse

  {
    "tokens": [
      {
        "token": "vis_a_vis",
        "startOffset": 0,
        "endOffset": 9,
        "position": 0
      },
      {
        "token": "vis_à_vis",
        "startOffset": 0,
        "endOffset": 9,
        "position": 0
      },
      {
        "token": "means",
        "startOffset": 10,
        "endOffset": 15,
        "position": 1
      },
      {
        "token": "opposite",
        "startOffset": 16,
        "endOffset": 24,
        "position": 2
      }
    ]
  }

Aktualisieren von benutzerdefinierten AnalysetoolsUpdate custom analyzers

Nach der Definition kann ein Analysetool, ein Tokenizer, Tokenfilter oder Zeichenfilter nicht mehr geändert werden.Once an analyzer, a tokenizer, a token filter, or a char filter is defined, it cannot be modified. Neue können nur dann einem vorhandenen Index hinzugefügt werden, wenn das allowIndexDowntime -Flag in der Anforderung zur Indexaktualisierung auf „true“ gesetzt ist:New ones can be added to an existing index only if the allowIndexDowntime flag is set to true in the index update request:

PUT https://[search service name].search.windows.net/indexes/[index name]?api-version=[api-version]&allowIndexDowntime=true

Mit diesem Vorgang wird Ihr Index für mindestens ein paar Sekunden offline geschaltet, sodass Indizierungs- und Abfrageanforderungen nicht gelingen.This operation takes your index offline for at least a few seconds, causing your indexing and query requests to fail. Leistung und Schreibverfügbarkeit des Indexes können nach der Indexaktualisierung mehrere Minuten lang eingeschränkt sein, bei sehr großen Indizes auch länger. Aber diese Auswirkungen sind nur vorübergehend und lösen sich von selbst auf.Performance and write availability of the index can be impaired for several minutes after the index is updated, or longer for very large indexes, but these effects are temporary and eventually resolve on their own.

AnalysetoolreferenzAnalyzer reference

In der folgenden Tabelle sind die Konfigurationseigenschaften für den Abschnitt mit den Analysetools, Tokenizern, Tokenfiltern und Zeichenfilter einer Indexdefinition angegeben.The tables below list the configuration properties for the analyzers, tokenizers, token filters, and char filter section of an index definition. Die Struktur eines Analysetools, Tokenizers oder Filters in Ihrem Index besteht aus diesen Attributen.The structure of an analyzer, tokenizer, or filter in your index is composed of these attributes. Informationen zur Zuordnung von Werten finden Sie unter Eigenschaftenverweis.For value assignment information, see the Property Reference.

AnalysemoduleAnalyzers

Bei Analysetools variieren die Indexattribute je nachdem, ob Sie vordefinierte oder benutzerdefinierte Analysetools verwenden.For analyzers, index attributes vary depending on the whether you're using predefined or custom analyzers.

Vordefinierte AnalysetoolsPredefined Analyzers

NAMEName Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.It must only contain letters, digits, spaces, dashes or underscores, can only start and end with alphanumeric characters, and is limited to 128 characters.
TypeType Analysetooltypen aus der Liste der unterstützten Analysetools.Analyzer type from the list of supported analyzers. Informationen dazu finden Sie in der Spalte analyzer_type in der Tabelle Analysetool unten.See the analyzer_type column in the Analyzers table below.
OptionenOptions Es müssen gültige Optionen eines vordefinierten Analysetools sein, die in der folgenden Tabelle Analysetools aufgeführt sind.Must be valid options of a predefined analyzer listed in the Analyzers table below.

Benutzerdefinierte AnalysetoolsCustom Analyzers

NAMEName Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.It must only contain letters, digits, spaces, dashes or underscores, can only start and end with alphanumeric characters, and is limited to 128 characters.
TypeType Muss "#Microsoft.Azure.Search.CustomAnalyzer" sein.Must be "#Microsoft.Azure.Search.CustomAnalyzer".
CharFiltersCharFilters Wird entweder auf einen der vordefinierten Zeichenfilter festgelegt, die in der Tabelle Zeichenfilter aufgeführt sind, oder auf einen benutzerdefinierten Zeichenfilter, der in der Indexdefinition angegeben ist.Set to either one of predefined char filters listed in the Char Filters table or a custom char filter specified in the index definition.
TokenizerTokenizer Erforderlich.Required. Wird entweder auf einen der vordefinierten Tokenizer festgelegt, die in der Tabelle Tokenizer aufgeführt sind, oder auf einen benutzerdefinierten Tokenizer, der in der Indexdefinition angegeben ist.Set to either one of predefined tokenizers listed in the Tokenizers table below or a custom tokenizer specified in the index definition.
TokenFiltersTokenFilters Wird entweder auf einen der vordefinierten Tokenfilter festgelegt, die in der Tabelle Tokenfilter aufgeführt sind, oder auf einen benutzerdefinierten Tokenfilter, der in der Indexdefinition angegeben ist.Set to either one of predefined token filters listed in the Token filters table or a custom token filter specified in the index definition.

Hinweis

Es ist erforderlich, dass Sie Ihr benutzerdefiniertes Analysetool so konfigurieren, dass keine Token produziert werden, die länger als 300 Zeichen sind.It's required that you configure your custom analyzer to not produce tokens longer than 300 characters. Bei der Indizierung für Dokumente mit solchen Token tritt ein Fehler auf.Indexing fails for documents with such tokens. Um sie zu kürzen oder zu ignorieren verwenden Sie TruncateTokenFilter und LengthTokenFilter.To trim them or ignore them, use the TruncateTokenFilter and the LengthTokenFilter respectively. Überprüfen Sie Tokenfilter als Referenz.Check Token filters for reference.

ZeichenfilterChar Filters

Zeichenfilter werden verwendet, um den Eingabetext vorzubereiten, bevor er vom Tokenizer verarbeitet wird.A char filter is used to prepare input text before it is processed by the tokenizer. Beispielsweise kann er bestimmte Zeichen oder Symbole ersetzen.For instance, they can replace certain characters or symbols. Sie können in einem benutzerdefinierten Analysemodul mehrere Zeichenfilter verwenden.You can have multiple char filters in a custom analyzer. Zeichenfilter werden in der Reihenfolge ausgeführt, in der sie aufgeführt sind.Char filters run in the order in which they are listed.

NAMEName Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.It must only contain letters, digits, spaces, dashes or underscores, can only start and end with alphanumeric characters, and is limited to 128 characters.
TypeType Zeichenfiltertyp aus der Liste der unterstützten Zeichenfilter.Char filter type from the list of supported char filters. Informationen dazu finden Sie in der Spalte char_filter_type in der Tabelle Zeichenfilter unten.See char_filter_type column in the Char Filters table below.
OptionenOptions Müssen gültige Optionen für einen bestimmten Typ von Zeichenfilter sein.Must be valid options of a given Char Filters type.

TokenizerTokenizers

Ein Tokenizer teilt fortlaufenden Text in eine Folge von Token, z.B. das Zerlegen eines Satzes in Wörter.A tokenizer divides continuous text into a sequence of tokens, such as breaking a sentence into words.

Sie können genau einen Tokenizer pro benutzerdefiniertem Analysetool angeben.You can specify exactly one tokenizer per custom analyzer. Wenn Sie mehr als einen Tokenizer benötigen, können Sie mehrere benutzerdefinierte Analysetools erstellen und diese feldweise in Ihrem Indexschema zuordnen.If you need more than one tokenizer, you can create multiple custom analyzers and assign them on a field-by-field basis in your index schema.
Ein benutzerdefiniertes Analysetool kann einen vordefinierten Tokenizer mit den Standard- oder den benutzerdefinierte Optionen verwenden.A custom analyzer can use a predefined tokenizer with either default or customized options.

NAMEName Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.It must only contain letters, digits, spaces, dashes or underscores, can only start and end with alphanumeric characters, and is limited to 128 characters.
TypeType Name der Tokenizer aus der Liste der unterstützten Tokenizer.Tokenizer name from the list of supported tokenizers. Informationen dazu finden Sie in der Spalte tokenizer_type in der Tabelle Tokenizer unten.See tokenizer_type column in the Tokenizers table below.
OptionenOptions Müssen gültige Optionen für einen bestimmten Tokenizertyp aus der Tabelle Tokenizer unten sein.Must be valid options of a given tokenizer type listed in the Tokenizers table below.

TokenfilterToken filters

Ein Tokenfilter wird verwendet, um die von einem Tokenizer generierten Token herauszufiltern oder zu ändern.A token filter is used to filter out or modify the tokens generated by a tokenizer. Sie können beispielsweise einen Filter für Kleinbuchstaben angeben, mit dem alle Zeichen in Kleinbuchstaben konvertiert werden.For example, you can specify a lowercase filter that converts all characters to lowercase.
Sie können in einem benutzerdefinierten Analysemodul mehrere Tokenfilter verwenden.You can have multiple token filters in a custom analyzer. Tokenfilter werden in der Reihenfolge ausgeführt, in der sie aufgeführt sind.Token filters run in the order in which they are listed.

NAMEName Er darf nur Buchstaben, Ziffern, Leerzeichen, Bindestriche und Unterstriche enthalten. Er muss mit alphanumerischen Zeichen beginnen und enden und darf maximal 128 Zeichen lang sein.It must only contain letters, digits, spaces, dashes or underscores, can only start and end with alphanumeric characters, and is limited to 128 characters.
TypeType Name des Tokenfilters aus der Liste der unterstützten Tokenfilter.Token filter name from the list of supported token filters. Informationen dazu finden Sie in der Spalte token_filter_type in der Tabelle Tokenfilter unten.See token_filter_type column in the Token filters table below.
OptionenOptions Müssen Tokenfilter eines bestimmten Tokenfiltertyps sein.Must be Token filters of a given token filter type.

EigenschaftsverweisProperty reference

Dieser Abschnitt enthält die gültigen Werte für Attribute, die in der Definition eines benutzerdefinierten Analysetools, Tokenizers, Zeichenfilters oder Tokenfilters in Ihrem Index angegeben sind.This section provides the valid values for attributes specified in the definition of a custom analyzer, tokenizer, char filter, or token filter in your index. Analysetools, Tokenizer und Filter, die mit Apache Lucene implementiert sind, bieten Links zur Lucene-API-Dokumentation.Analyzers, tokenizers, and filters that are implemented using Apache Lucene have links to the Lucene API documentation.

Vordefinierte AnalysetoolreferenzPredefined Analyzers Reference

analyzer_nameanalyzer_name analyzer_type 1analyzer_type 1 Beschreibung und OptionenDescription and Options
keywordkeyword (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Behandelt den gesamten Inhalt eines Felds als ein einzelnes Token.Treats the entire content of a field as a single token. Dies ist nützlich für Daten wie Postleitzahlen, IDs und einige Produktnamen.This is useful for data like zip codes, IDs, and some product names.
patternpattern PatternAnalyzerPatternAnalyzer Trennt Text flexibel über ein reguläres Ausdrucksmuster in Begriffe.Flexibly separates text into terms via a regular expression pattern.

OptionenOptions

lowercase (Typ: Boolscher Wert) – bestimmt, ob Begriffe klein geschrieben werden.lowercase (type: bool) - Determines whether terms are lowercased. Der Standardwert ist „true“.The default is true.

pattern (Typ: Zeichenfolge) – ein reguläres Ausdrucksmuster zum Abgleich von Tokentrennlinien.pattern (type: string) - A regular expression pattern to match token separators. Der Standardwert ist „\w+“.The default is \w+.

flags (Typ: Zeichenfolge) – Flags für einen regulären Ausdruck.flags (type: string) - Regular expression flags. Der Standardwert ist eine leere Zeichenfolge.The default is an empty string. Zulässige Werte: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINESAllowed values: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINES

stopwords (Typ: Zeichenfolgenarray) – eine Liste an Stoppwörtern.stopwords (type: string array) - A list of stopwords. Der Standardwert ist eine leere Liste.The default is an empty list.
simplesimple (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben.Divides text at non-letters and converts them to lower case.
standardstandard
(Wird auch als standard.lucene bezeichnet.)(Also referred to as standard.lucene)
StandardAnalyzerStandardAnalyzer Standardmäßiges Lucene-Analysetool, bestehend aus dem Standardtokenizer, Kleinbuchstabenfilter und Stoppfilter.Standard Lucene analyzer, composed of the standard tokenizer, lowercase filter, and stop filter.

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge.maxTokenLength (type: int) - The maximum token length. Der Standardwert ist 255.The default is 255. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split. Ein Token darf maximal 300 Zeichen lang sein.Maximum token length that can be used is 300 characters.

stopwords (Typ: Zeichenfolgenarray) – eine Liste an Stoppwörtern.stopwords (type: string array) - A list of stopwords. Der Standardwert ist eine leere Liste.The default is an empty list.
standardasciifolding.Lucenestandardasciifolding.lucene (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Standardanalysetool mit ASCII-Folding-Filter.Standard analyzer with Ascii folding filter.
stopstop StopAnalyzerStopAnalyzer Teilt Text an Nicht-Buchstaben, wendet die Kleinbuchstaben- und Stoppwort-Tokenfilter an.Divides text at non-letters, applies the lowercase and stopword token filters.

OptionenOptions

stopwords (Typ: Zeichenfolgenarray) – eine Liste an Stoppwörtern.stopwords (type: string array) - A list of stopwords. Der Standard ist eine vordefinierte Liste für Englisch.The default is a predefined list for English.
whitespacewhitespace (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Ein Analysetool, das den Whitespace-Tokenizer verwendet.An analyzer that uses the whitespace tokenizer. Token, die länger als 255 Zeichen sind, werden geteilt.Tokens that are longer than 255 characters are split.

1 Analysetooltypen wird in Code immer „#Microsoft.Azure.Search“ vorangestellt, sodass „PatternAnalyzer“ als „#Microsoft.Azure.Search.PatternAnalyzer“ angegeben wird.1 Analyzer Types are always prefixed in code with "#Microsoft.Azure.Search" such that "PatternAnalyzer" would actually be specified as "#Microsoft.Azure.Search.PatternAnalyzer". Wir haben das Präfix aus Gründen der Übersichtlichkeit entfernt, aber das Präfix ist in Ihrem Code erforderlich.We removed the prefix for brevity, but the prefix is required in your code.

Der „analyzer_type“ wird nur für Analysetools angegeben, die angepasst werden können.The analyzer_type is only provided for analyzers that can be customized. Wenn es keine Optionen gibt, wie es beim Schlüsselwortanalysetool der Fall ist, gibt es keinen zugehörigen #Microsoft.Azure.Search-Typ.If there are no options, as is the case with the keyword analyzer, there is no associated #Microsoft.Azure.Search type.

ZeichenfilterreferenzChar Filters Reference

In der folgenden Tabelle bieten die Zeichenfilter, die mit Apache Lucene implementiert wurden, Links zur Lucene-API-Dokumentation.In the table below, the character filters that are implemented using Apache Lucene are linked to the Lucene API documentation.

char_filter_namechar_filter_name char_filter_type 1char_filter_type 1 Beschreibung und OptionenDescription and Options
html_striphtml_strip (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Ein Zeichenfilter, der versucht, HTML-Konstrukte zu entfernen.A char filter that attempts to strip out HTML constructs.
mappingmapping MappingCharFilterMappingCharFilter Ein Zeichenfilter, der anhand der Zuordnungsoptionen definierten Zuordnungen anwendet.A char filter that applies mappings defined with the mappings option. Der Abgleich ist umfangreich (der längste Musterabgleich an einem bestimmten Punkt wird verwendet).Matching is greedy (longest pattern matching at a given point wins). Eine Ersetzung kann eine leere Zeichenfolge sein.Replacement is allowed to be the empty string.

OptionenOptions

mappings (Type: Zeichenfolgenarray) – eine Liste an Zuordnungen im folgenden Format: "a=>b" (alle Vorkommen des Zeichens „a“ werden durch das Zeichen „b“ ersetzt).mappings (type: string array) - A list of mappings of the following format: "a=>b" (all occurrences of the character "a" are replaced with character "b"). Erforderlich.Required.
pattern_replacepattern_replace PatternReplaceCharFilterPatternReplaceCharFilter Ein Zeichenfilter, der Zeichen in der Eingabezeichenfolge ersetzt.A char filter that replaces characters in the input string. Er verwendet einen regulären Ausdruck, um zu erhaltende Zeichenfolgen zu identifizieren, und ein Ersatzmuster, um zu ersetzende Zeichen zu identifizieren.It uses a regular expression to identify character sequences to preserve and a replacement pattern to identify characters to replace. Beispiel: input text = "aa bb aa bb", pattern="(aa)\\s+(bb)" replacement="$1#$2", result = "aa#bb aa#bb".For example, input text = "aa bb aa bb", pattern="(aa)\\s+(bb)" replacement="$1#$2", result = "aa#bb aa#bb".

OptionenOptions

pattern (Typ: Zeichenfolge) – erforderlich.pattern (type: string) - Required.

replacement (Typ: Zeichenfolge) – erforderlich.replacement (type: string) - Required.

1 Zeichenfiltertypen wird in Code immer „#Microsoft.Azure.Search“ vorangestellt, sodass „MappingCharFilter“ als „#Microsoft.Azure.Search.MappingCharFilter“ angegeben wird.1 Char Filter Types are always prefixed in code with "#Microsoft.Azure.Search" such that "MappingCharFilter" would actually be specified as "#Microsoft.Azure.Search.MappingCharFilter. Wir haben das Präfix entfernt, um die Breite der Tabelle zu verringern, denken Sie aber daran, das Präfix in Ihren Code einzubinden.We removed the prefix to reduce the width of the table, but please remember to include it in your code. Beachten Sie, dass „char_filter_type“ nur für Filter angegeben wird, die angepasst werden können.Notice that char_filter_type is only provided for filters that can be customized. Wenn es keine Optionen gibt, wie es bei html_strip der Fall ist, gibt es keinen zugehörigen #Microsoft.Azure.Search-Typ.If there are no options, as is the case with html_strip, there is no associated #Microsoft.Azure.Search type.

TokenizerreferenzTokenizers Reference

In der folgenden Tabelle bieten die Tokenizer, die mit Apache Lucene implementiert wurden, Links zur Lucene-API-Dokumentation.In the table below, the tokenizers that are implemented using Apache Lucene are linked to the Lucene API documentation.

tokenizer_nametokenizer_name tokenizer_type 1tokenizer_type 1 Beschreibung und OptionenDescription and Options
Klassischclassic ClassicTokenizerClassicTokenizer Grammatikbasierter Tokenizer, der sich für die Verarbeitung der meisten europäischsprachigen Dokumente eignet.Grammar based tokenizer that is suitable for processing most European-language documents.

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge.maxTokenLength (type: int) - The maximum token length. Standardwert: 255, Maximum: 300.Default: 255, maximum: 300. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split.
edgeNGramedgeNGram EdgeNGramTokenizerEdgeNGramTokenizer Tokenisiert die Eingabe von einem Edge in N-Gramme einer festgelegten Größe.Tokenizes the input from an edge into n-grams of given size(s).

OptionenOptions

minGram (type: int) – Standard: 1, Maximum: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (type: int) – Standard: 2, Maximum: 300.maxGram (type: int) - Default: 2, maximum: 300. Der Wert muss größer als „minGram“.Must be greater than minGram.

tokenChars (Typ: Zeichenfolgenarray) – Zeichenklassen, die in den Token beibehalten werden.tokenChars (type: string array) - Character classes to keep in the tokens. Zulässige Werte:Allowed values:
„letter“, „digit“, „whitespace“, „punctuation“, „symbol“."letter", "digit", "whitespace", "punctuation", "symbol". Der Standardwert ist ein leeres Array – behält alle Zeichen bei.Defaults to an empty array - keeps all characters.
keyword_v2keyword_v2 KeywordTokenizerV2KeywordTokenizerV2 Gibt die gesamte Eingabe als ein einzelnes Token aus.Emits the entire input as a single token.

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge.maxTokenLength (type: int) - The maximum token length. Standardwert: 256, Maximum: 300.Default: 256, maximum: 300. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split.
letterletter (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Teilt Text in nicht-Buchstaben.Divides text at non-letters. Token mit mehr als 255 Zeichen werden geteilt.Tokens that are longer than 255 characters are split.
lowercaselowercase (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Teilt Text an Nicht-Buchstaben und konvertiert ihn in Kleinbuchstaben.Divides text at non-letters and converts them to lower case. Token mit mehr als 255 Zeichen werden geteilt.Tokens that are longer than 255 characters are split.
microsoft_language_tokenizermicrosoft_language_tokenizer MicrosoftLanguageTokenizerMicrosoftLanguageTokenizer Teilt Text mit sprachspezifische Regeln auf.Divides text using language-specific rules.

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge, Standard: 255, Maximum: 300.maxTokenLength (type: int) - The maximum token length, default: 255, maximum: 300. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split. Token mit mehr als 300 Zeichen werden zunächst in Token mit 300 Zeichen aufgeteilt und dann wird jeder dieser Token basierend auf "maxTokenLength" unterteilt.Tokens longer than 300 characters are first split into tokens of length 300 and then each of those tokens is split based on the maxTokenLength set.

isSearchTokenizer (Typ: Boolscher Wert) – wird auf „true“ gesetzt, wenn er als Such-Tokenizer verwendet wird, wird auf „false“ gesetzt, wenn er als Indexierungs-Tokenizer verwendet wird.isSearchTokenizer (type: bool) - Set to true if used as the search tokenizer, set to false if used as the indexing tokenizer.

language (Type: Zeichenfolge) – zu verwendende Sprache, Standard „english“.language (type: string) - Language to use, default "english". Zulässige Werte sind:Allowed values include:
"bangla", "bulgarian", "catalan", "chineseSimplified", "chineseTraditional", "croatian", "czech", "danish", "dutch", "english", "french", "german", "greek", "gujarati", "hindi", "icelandic", "indonesian", "italian", "japanese", "kannada", "korean", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovenian", "spanish", "swedish", "tamil", "telugu", "thai", "ukrainian", "urdu", "vietnamese""bangla", "bulgarian", "catalan", "chineseSimplified", "chineseTraditional", "croatian", "czech", "danish", "dutch", "english", "french", "german", "greek", "gujarati", "hindi", "icelandic", "indonesian", "italian", "japanese", "kannada", "korean", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovenian", "spanish", "swedish", "tamil", "telugu", "thai", "ukrainian", "urdu", "vietnamese"
microsoft_language_stemming_tokenizermicrosoft_language_stemming_tokenizer MicrosoftLanguageStemmingTokenizerMicrosoftLanguageStemmingTokenizer Teilt Text nach sprachspezifischen Regeln auf und reduziert Wörter auf ihre Grundformen.Divides text using language-specific rules and reduces words to their base forms

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge, Standard: 255, Maximum: 300.maxTokenLength (type: int) - The maximum token length, default: 255, maximum: 300. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split. Token mit mehr als 300 Zeichen werden zunächst in Token mit 300 Zeichen aufgeteilt und dann wird jeder dieser Token basierend auf "maxTokenLength" unterteilt.Tokens longer than 300 characters are first split into tokens of length 300 and then each of those tokens is split based on the maxTokenLength set.

isSearchTokenizer (Typ: Boolscher Wert) – wird auf „true“ gesetzt, wenn er als Such-Tokenizer verwendet wird, wird auf „false“ gesetzt, wenn er als Indexierungs-Tokenizer verwendet wird.isSearchTokenizer (type: bool) - Set to true if used as the search tokenizer, set to false if used as the indexing tokenizer.

language (Type: Zeichenfolge) – zu verwendende Sprache, Standard „english“.language (type: string) - Language to use, default "english". Zulässige Werte sind:Allowed values include:
"arabic", "bangla", "bulgarian", "catalan", "croatian", "czech", "danish", "dutch", "english", "estonian", "finnish", "french", "german", "greek", "gujarati", "hebrew", "hindi", "hungarian", "icelandic", "indonesian", "italian", "kannada", "latvian", "lithuanian", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovak", "slovenian", "spanish", "swedish", "tamil", "telugu", "turkish", "ukrainian", "urdu""arabic", "bangla", "bulgarian", "catalan", "croatian", "czech", "danish", "dutch", "english", "estonian", "finnish", "french", "german", "greek", "gujarati", "hebrew", "hindi", "hungarian", "icelandic", "indonesian", "italian", "kannada", "latvian", "lithuanian", "malay", "malayalam", "marathi", "norwegianBokmaal", "polish", "portuguese", "portugueseBrazilian", "punjabi", "romanian", "russian", "serbianCyrillic", "serbianLatin", "slovak", "slovenian", "spanish", "swedish", "tamil", "telugu", "turkish", "ukrainian", "urdu"
nGramnGram NGramTokenizerNGramTokenizer Tokenisiert die Eingabe in N-Gramme einer festgelegten Größe.Tokenizes the input into n-grams of the given size(s).

OptionenOptions

minGram (type: int) – Standard: 1, Maximum: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (type: int) – Standard: 2, Maximum: 300.maxGram (type: int) - Default: 2, maximum: 300. Der Wert muss größer als „minGram“.Must be greater than minGram.

tokenChars (Typ: Zeichenfolgenarray) – Zeichenklassen, die in den Token beibehalten werden.tokenChars (type: string array) - Character classes to keep in the tokens. Zulässige Werte: „letter“, „digit“, „whitespace“, „punctuation“, „symbol“.Allowed values: "letter", "digit", "whitespace", "punctuation", "symbol". Der Standardwert ist ein leeres Array – behält alle Zeichen bei.Defaults to an empty array - keeps all characters.
path_hierarchy_v2path_hierarchy_v2 PathHierarchyTokenizerV2PathHierarchyTokenizerV2 Tokenizer für pfadähnliche Hierarchien.Tokenizer for path-like hierarchies.

OptionenOptions

delimiter (type: Zeichenfolge) – Standard: '/.delimiter (type: string) - Default: '/.

replacement (Typ: Zeichenfolge) – wenn festgelegt, wird das Trennzeichen ersetzt.replacement (type: string) - If set, replaces the delimiter character. Standardmäßig ist dies identisch mit dem Wert für das Trennzeichen.Default same as the value of delimiter.

maxTokenLength (Typ: int) – die maximale Tokenlänge.maxTokenLength (type: int) - The maximum token length. Standardwert: 300, Maximum: 300.Default: 300, maximum: 300. Pfade, die länger sind als „MaxTokenLength“ werden ignoriert.Paths longer than maxTokenLength are ignored.

reverse (Type: Boolscher Wert) – wenn auf „true“ festgelegt, werden Token in umgekehrter Reihenfolge generiert.reverse (type: bool) - If true, generates token in reverse order. Standardwert: false.Default: false.

skip (Typ: Boolscher Wert) – Erste Token, die übersprungen werden.skip (type: bool) - Initial tokens to skip. Der Standardwert ist 0.The default is 0.
patternpattern PatternTokenizerPatternTokenizer Dieser Tokenizer verwendet den RegEx-Musterabgleich, um verschiedene Token zu erstellen.This tokenizer uses regex pattern matching to construct distinct tokens.

OptionenOptions

pattern (Typ: Zeichenfolge) – Muster für einen regulären Ausdruck.pattern (type: string) - Regular expression pattern. Der Standardwert ist „\W+“.The default is \W+.

flags (Typ: Zeichenfolge) – Flags für einen regulären Ausdruck.flags (type: string) - Regular expression flags. Der Standardwert ist eine leere Zeichenfolge.The default is an empty string. Zulässige Werte: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINESAllowed values: CANON_EQ, CASE_INSENSITIVE, COMMENTS, DOTALL, LITERAL, MULTILINE, UNICODE_CASE, UNIX_LINES

group (Typ: Int) – die Gruppe, die in Token extrahiert werden soll.group (type: int) - Which group to extract into tokens. Der Standardwert ist „-1 (split)“.The default is -1 (split).
standard_v2standard_v2 StandardTokenizerV2StandardTokenizerV2 Teilt Text gemäß den Regeln für Unicode-Textsegmentierung auf.Breaks text following the Unicode Text Segmentation rules.

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge.maxTokenLength (type: int) - The maximum token length. Standardwert: 255, Maximum: 300.Default: 255, maximum: 300. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split.
uax_url_emailuax_url_email UaxUrlEmailTokenizerUaxUrlEmailTokenizer Tokenisiert URLs und E-Mails als ein Token.Tokenizes urls and emails as one token.

OptionenOptions

maxTokenLength (Typ: int) – die maximale Tokenlänge.maxTokenLength (type: int) - The maximum token length. Standardwert: 255, Maximum: 300.Default: 255, maximum: 300. Token, die die maximale Länge überschreiten, werden geteilt.Tokens longer than the maximum length are split.
whitespacewhitespace (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Teilt Text an den Leerzeichen auf.Divides text at whitespace. Token mit mehr als 255 Zeichen werden geteilt.Tokens that are longer than 255 characters are split.

1 Tokenizertypen wird in Code immer „#Microsoft.Azure.Search“ vorangestellt, sodass „ClassicTokenizer“ als „#Microsoft.Azure.Search.ClassicTokenizer“ angegeben wird.1 Tokenizer Types are always prefixed in code with "#Microsoft.Azure.Search" such that "ClassicTokenizer" would actually be specified as "#Microsoft.Azure.Search.ClassicTokenizer". Wir haben das Präfix entfernt, um die Breite der Tabelle zu verringern, denken Sie aber daran, das Präfix in Ihren Code einzubinden.We removed the prefix to reduce the width of the table, but please remember to include it in your code. Beachten Sie, dass „tokenizer_type“ nur für Tokenizer angegeben wird, die angepasst werden können.Notice that tokenizer_type is only provided for tokenizers that can be customized. Wenn es keine Optionen gibt, wie es beim Buchstabentokenizer der Fall ist, gibt es keinen zugehörigen #Microsoft.Azure.Search-Typ.If there are no options, as is the case with the letter tokenizer, there is no associated #Microsoft.Azure.Search type.

TokenfilterreferenzToken Filters Reference

In der folgenden Tabelle bieten die Tokenfilter, die mit Apache Lucene implementiert wurden, Links zur Lucene-API-Dokumentation.In the table below, the token filters that are implemented using Apache Lucene are linked to the Lucene API documentation.

token_filter_nametoken_filter_name token_filter_type 1token_filter_type 1 Beschreibung und OptionenDescription and Options
arabic_normalizationarabic_normalization (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Ein Tokenfilter, der den Normalisierer für arabische Sprachen anwendet, um die Orthographie zu normalisieren.A token filter that applies the Arabic normalizer to normalize the orthography.
apostropheapostrophe (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Entfernt alle Zeichen nach einem Apostroph (einschließlich des Apostrophs).Strips all characters after an apostrophe (including the apostrophe itself).
asciifoldingasciifolding AsciiFoldingTokenFilterAsciiFoldingTokenFilter Konvertiert alphabetische, numerische und symbolische Unicode-Zeichen, die nicht in den ersten 127 ASCII-Zeichen (dem Unicode-Block „Basic Latin“) enthalten sind, in ihre ASCII-Äquivalente, falls vorhanden.Converts alphabetic, numeric, and symbolic Unicode characters which are not in the first 127 ASCII characters (the "Basic Latin" Unicode block) into their ASCII equivalents, if one exists.

OptionenOptions

preserveOriginal (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, wir der ursprüngliche Token beibehalten.preserveOriginal (type: bool) - If true, the original token is kept. Die Standardeinstellung ist „false“.The default is false.
cjk_bigramcjk_bigram CjkBigramTokenFilterCjkBigramTokenFilter Bildet Bigramme von CJK-Benennungen, die aus StandardTokenizer generiert werden.Forms bigrams of CJK terms that are generated from StandardTokenizer.

OptionenOptions

ignoreScripts (Typ: Zeichenfolgenarray) – zu ignorierende Skripte.ignoreScripts (type: string array) - Scripts to ignore. Zulässige Werte sind: „han“, „hiragana“, „katakana“, „hangul“.Allowed values include: "han", "hiragana", "katakana", "hangul". Der Standardwert ist eine leere Liste.The default is an empty list.

outputUnigrams (Typ: Boolscher Wert) – auf „true“ setzen, wenn Sie immer sowohl Unigramme als auch Bigramme ausgeben möchten.outputUnigrams (type: bool) - Set to true if you always want to output both unigrams and bigrams. Die Standardeinstellung ist „false“.The default is false.
cjk_widthcjk_width (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Normalisiert CJK-Breitenabweichungen.Normalizes CJK width differences. Faltet ASCII-Varianten mit voller Breite in die äquivalente Basislatein-Varianten und Katakana-Varianten mit halber Breite in die äquivalente Kana-Versionen.Folds full width ASCII variants into the equivalent basic latin and half-width Katakana variants into the equivalent kana.
Klassischclassic (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Entfernt die Possessive und Punkte aus Akronymen.Removes the English possessives, and dots from acronyms.
common_gramscommon_grams CommonGramTokenFilterCommonGramTokenFilter Konstruiert Bigramme für häufig vorkommende Begriffe während der Indexierung.Construct bigrams for frequently occurring terms while indexing. Einzelne Begriffe werden ebenfalls indexiert und mit Bigrammen überlagert.Single terms are still indexed too, with bigrams overlaid.

OptionenOptions

commonWords (Typ: Zeichenfolgenarray) – der Satz an allgemeinen Wörtern.commonWords (type: string array) - The set of common words. Der Standardwert ist eine leere Liste.The default is an empty list. Erforderlich.Required.

ignoreCase (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, wird beim Abgleich die Groß-/Kleinschreibung berücksichtigt.ignoreCase (type: bool) - If true, matching is case insensitive. Die Standardeinstellung ist „false“.The default is false.

queryMode (Typ: Boolscher Wert) – Generiert Bigramme und entfernt dann allgemeine Wörter und einzelne Begriffe, gefolgt von einem allgemeinen Wort.queryMode (type: bool) - Generates bigrams then removes common words and single terms followed by a common word. Die Standardeinstellung ist „false“.The default is false.
dictionary_decompounderdictionary_decompounder DictionaryDecompounderTokenFilterDictionaryDecompounderTokenFilter Zerlegt zusammengesetzte Wörter, die in vielen germanischen Sprachen vorkommen.Decomposes compound words found in many Germanic languages.

OptionenOptions

wordList (Typ: Zeichenfolgenarray) – die Liste der Wörter, die abgeglichen wird.wordList (type: string array) - The list of words to match against. Der Standardwert ist eine leere Liste.The default is an empty list. Erforderlich.Required.

minWordSize (Typ: int) – es werden nur Wörter verarbeitet, die länger als dieser Wert sind.minWordSize (type: int) - Only words longer than this get processed. Der Standardwert ist 5.The default is 5.

minSubwordSize (Typ: int) – es werden nur Wörter ausgegeben, die länger als dieser Wert sind.minSubwordSize (type: int) - Only subwords longer than this are outputted. Der Standardwert ist 2.The default is 2.

maxSubwordSize (Typ: int) – es werden nur Wörter ausgegeben, die kürzer als dieser Wert sind.maxSubwordSize (type: int) - Only subwords shorter than this are outputted. Der Standardwert ist 15.The default is 15.

onlyLongestMatch (Typ: Boolscher Wert) – es wird nur das Teilwort mit der längsten Übereinstimmung ausgegeben.onlyLongestMatch (type: bool) - Add only the longest matching subword to output. Die Standardeinstellung ist „false“.The default is false.
edgeNGram_v2edgeNGram_v2 EdgeNGramTokenFilterV2EdgeNGramTokenFilterV2 Generiert N-Gramme einer festgelegten Größe beginnend am Anfang oder Ende eines Ausgabetokens.Generates n-grams of the given size(s) from starting from the front or the back of an input token.

OptionenOptions

minGram (type: int) – Standard: 1, Maximum: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (type: int) – Standard: 2, Maximum 300.maxGram (type: int) - Default: 2, maximum 300. Der Wert muss größer als „minGram“.Must be greater than minGram.

side (Typ: Zeichenfolge) – gibt an, von welcher Seite der Eingabe aus das N-Gramm generiert werden soll.side (type: string) - Specifies which side of the input the n-gram should be generated from. Zulässige Werte: „front“, „back“Allowed values: "front", "back"
elisionelision ElisionTokenFilterElisionTokenFilter Entfernt Elisionen.Removes elisions. Beispielsweise wird „l'avion“ (das Flugzeug) in „avion“ (Flugzeug) konvertiert.For example, "l'avion" (the plane) is converted to "avion" (plane).

OptionenOptions

articles (Typ: Zeichenfolgenarray) – ein Satz an zu entfernenden Artikeln.articles (type: string array) - A set of articles to remove. Der Standardwert ist eine leere Liste.The default is an empty list. Wenn es keine Liste der Artikel gibt, werden standardmäßig alle französischen Artikel entfernt.If there is no list of articles set, by default all French articles are removed.
german_normalizationgerman_normalization (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Normalisiert deutsche Zeichen gemäß der Heuristik des German2 Snowball-Algorithmus.Normalizes German characters according to the heuristics of the German2 snowball algorithm .
hindi_normalizationhindi_normalization (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Normalisiert Text in Hindi, um einige Unterschiede in der Schreibweise zu beseitigen.Normalizes text in Hindi to remove some differences in spelling variations.
indic_normalizationindic_normalization IndicNormalizationTokenFilterIndicNormalizationTokenFilter Normalisiert die Unicode-Darstellung von Text in indischen Sprachen.Normalizes the Unicode representation of text in Indian languages.
keepkeep KeepTokenFilterKeepTokenFilter Ein Tokenfilter, der nur Token mit Text in der angegebenen Wortliste enthält.A token filter that only keeps tokens with text contained in specified list of words.

OptionenOptions

keepWords (Typ: Zeichenfolgenarray) – eine Liste von beizubehaltenden Wörtern.keepWords (type: string array) - A list of words to keep. Der Standardwert ist eine leere Liste.The default is an empty list. Erforderlich.Required.

keepWordsCase (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, werden zunächst alle Wörter klein geschrieben.keepWordsCase (type: bool) - If true, lower case all words first. Die Standardeinstellung ist „false“.The default is false.
keyword_markerkeyword_marker KeywordMarkerTokenFilterKeywordMarkerTokenFilter Begriffe werden als Schlüsselwörter gekennzeichnet.Marks terms as keywords.

OptionenOptions

keywords (Typ: Zeichenfolgenarray) – eine Liste von Wörtern, die als Schlüsselwörter gekennzeichnet werden.keywords (type: string array) - A list of words to mark as keywords. Der Standardwert ist eine leere Liste.The default is an empty list. Erforderlich.Required.

ignoreCase (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, werden zunächst alle Wörter klein geschrieben.ignoreCase (type: bool) - If true, lower case all words first. Die Standardeinstellung ist „false“.The default is false.
keyword_repeatkeyword_repeat (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Gibt jedes eingehende Token zweimal als Schlüsselwort und einmal als Nicht-Schlüsselwort aus.Emits each incoming token twice once as keyword and once as non-keyword.
kstemkstem (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Ein Hochleistungs-Kstem-Filter für Englisch.A high-performance kstem filter for English.
Längelength LengthTokenFilterLengthTokenFilter Entfernt die Wörter, die zu lang oder zu kurz sind.Removes words that are too long or too short.

OptionenOptions

min (Typ: int) – die Mindestanzahl.min (type: int) - The minimum number. Standardwert: 0, Maximum: 300.Default: 0, maximum: 300.

max (type: int) – die Maximalanzahl.max (type: int) - The maximum number. Standardwert: 300, Maximum: 300.Default: 300, maximum: 300.
limitlimit Microsoft.Azure.Search.LimitTokenFilterMicrosoft.Azure.Search.LimitTokenFilter Beschränkt die Anzahl der Token während der Indizierung.Limits the number of tokens while indexing.

OptionenOptions

MaxTokenCount (Typ: Int) – maximale Anzahl der zu erzeugenden Token.maxTokenCount (type: int) - Max number of tokens to produce. Der Standardwert ist 1.The default is 1.

consumeAllTokens (Typ: Boolscher Wert) – legt fest, ob alle Token aus der Ausgabe verarbeitet werden, auch wenn der Wert für „maxTokenCount“ erreicht ist.consumeAllTokens (type: bool) - Whether all tokens from the input must be consumed even if maxTokenCount is reached. Die Standardeinstellung ist „false“.The default is false.
lowercaselowercase (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Normalisiert den Tokentext in Kleinbuchstaben.Normalizes token text to lower case.
nGram_v2nGram_v2 NGramTokenFilterV2NGramTokenFilterV2 Generiert N-Gramme einer festgelegten Größe.Generates n-grams of the given size(s).

OptionenOptions

minGram (type: int) – Standard: 1, Maximum: 300.minGram (type: int) - Default: 1, maximum: 300.

maxGram (type: int) – Standard: 2, Maximum 300.maxGram (type: int) - Default: 2, maximum 300. Der Wert muss größer als „minGram“.Must be greater than minGram.
pattern_capturepattern_capture PatternCaptureTokenFilterPatternCaptureTokenFilter Verwendet Java-RegExe zur Ausgabe mehrerer Token – eines für jede Erfassungsgruppe in einem oder mehreren Mustern.Uses Java regexes to emit multiple tokens, one for each capture group in one or more patterns.

OptionenOptions

patterns (Typ: Zeichenfolgenarray) – eine Liste von Mustern, die mit jedem Token abgeglichen werden.patterns (type: string array) - A list of patterns to match against each token. Erforderlich.Required.

preserveOriginal (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, wird der ursprüngliche Token zurückgegeben, auch wenn eines der Muster übereinstimmt, Standard: truepreserveOriginal (type: bool) - Set to true to return the original token even if one of the patterns matches, default: true
pattern_replacepattern_replace PatternReplaceTokenFilterPatternReplaceTokenFilter Ein Tokenfilter, der jedem Token im Stream ein Muster zuweist und Übereinstimmungen durch die angegebene Ersetzungszeichenkette ersetzt.A token filter which applies a pattern to each token in the stream, replacing match occurrences with the specified replacement string.

OptionenOptions

pattern (Typ: Zeichenfolge) – erforderlich.pattern (type: string) - Required.

replacement (Typ: Zeichenfolge) – erforderlich.replacement (type: string) - Required.
persian_normalizationpersian_normalization (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Wendet die Normalisierung für Persisch an.Applies normalization for Persian.
phoneticphonetic PhoneticTokenFilterPhoneticTokenFilter Erstellt Token für phonetische Übereinstimmungen.Create tokens for phonetic matches.

OptionenOptions

encoder (Typ: Zeichenfolge) – zu verwendender phonetischer Encoder.encoder (type: string) - Phonetic encoder to use. Zulässige Werte sind: "metaphone", "doubleMetaphone", "soundex", "refinedSoundex", "caverphone1", "caverphone2", "cologne", "nysiis", "koelnerPhonetik", "haasePhonetik", "beiderMorse".Allowed values include: "metaphone", "doubleMetaphone", "soundex", "refinedSoundex", "caverphone1", "caverphone2", "cologne", "nysiis", "koelnerPhonetik", "haasePhonetik", "beiderMorse". Standard: "metaphone".Default: "metaphone". Der Standard lautet "metaphone".Default is metaphone.

Weitere Informationen finden Sie unter Encoder.See encoder for more information.

replace (Typ: Boolscher Wert) – wird auf „true“ gesetzt, wenn das kodierte Token das ursprüngliche Token ersetzen soll, „false“, wenn sie als Synonyme hinzugefügt werden sollen.replace (type: bool) - True if encoded tokens should replace original tokens, false if they should be added as synonyms. Der Standardwert ist „true“.The default is true.
porter_stemporter_stem (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Transformiert den Tokenstream gemäß Porter-Stemmer-Algorithmus.Transforms the token stream as per the Porter stemming algorithm.
reversereverse (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Kehrt die Tokenzeichenfolge um.Reverses the token string.
scandinavian_normalizationscandinavian_normalization (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Normalisiert die Verwendung der austauschbar skandinavische Zeichen.Normalizes use of the interchangeable Scandinavian characters.
scandinavian_foldingscandinavian_folding (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Faltet skandinavische Zeichen åÅäæÄÆ->a und öÖøØ->o.Folds Scandinavian characters åÅäæÄÆ->a and öÖøØ->o. Es unterscheidet auch die Verwendung von doppelten Vokalen aa, ae, ae, ao, ao, oe und oo, wobei nur der erste übrig bleibt.It also discriminates against use of double vowels aa, ae, ao, oe and oo, leaving just the first one.
shingleshingle ShingleTokenFilterShingleTokenFilter Kombiniert Token zu einem einzelnen Token.Creates combinations of tokens as a single token.

OptionenOptions

maxShingleSize (Typ: int) – Standard ist 2.maxShingleSize (type: int) - Defaults to 2.

minShingleSize (Typ: int) – Standard ist 2.minShingleSize (type: int) - Defaults to 2.

outputUnigrams (Typ: Boolscher Wert) – wenn „true“ enthält der Ausgabestream die Eingabetoken (Unigramme) und die Schindeln.outputUnigrams (type: bool) - if true, the output stream contains the input tokens (unigrams) as well as shingles. Der Standardwert ist „true“.The default is true.

outputUnigramsIfNoShingles (Typ: Boolscher Wert) – wenn „true“ wird das Verhalten von „outputUnigrams==false“ für die Fälle überschrieben, bei denen keine Schindeln verfügbar sind.outputUnigramsIfNoShingles (type: bool) - If true, override the behavior of outputUnigrams==false for those times when no shingles are available. Die Standardeinstellung ist „false“.The default is false.

tokenSeparator (Typ: Zeichenfolge) – Die Zeichenfolge, die beim Verbinden benachbarter Token zum Bilden einer Schindel verwendet werden soll.tokenSeparator (type: string) - The string to use when joining adjacent tokens to form a shingle. Der Standardwert ist „ “.The default is " ".

FilterToken (Typ: Zeichenfolge) – die einzufügende Zeichenfolge für jede Position, an der sich kein Token befindet.filterToken (type: string) - The string to insert for each position at which there is no token. Der Standardwert ist „“.The default is "".
snowballsnowball SnowballTokenFilterSnowballTokenFilter Snowball-Tokenfilter.Snowball Token Filter.

OptionenOptions

language (Typ: Zeichenfolge) – Zulässige Werte sind: "armenian", "basque", "catalan", "danish", "dutch", "english", "finnish", "french", "german", "german2", "hungarian", "italian", "kp", "lovins", "norwegian", "porter", "portuguese", "romanian", "russian", "spanish", "swedish", "turkish"language (type: string) - Allowed values include: "armenian", "basque", "catalan", "danish", "dutch", "english", "finnish", "french", "german", "german2", "hungarian", "italian", "kp", "lovins", "norwegian", "porter", "portuguese", "romanian", "russian", "spanish", "swedish", "turkish"
sorani_normalizationsorani_normalization SoraniNormalizationTokenFilterSoraniNormalizationTokenFilter Normalisiert die Unicode-Darstellung von Text in Sorani.Normalizes the Unicode representation of Sorani text.

OptionenOptions

None (Keine):None.
stemmerstemmer StemmerTokenFilterStemmerTokenFilter Sprachspezifischer für die Wortstammerkennung.Language-specific stemming filter.

OptionenOptions

language (Typ: Zeichenfolge) – Zulässige Werte sind:language (type: string) - Allowed values include:
- "arabic"- "arabic"
- "armenian"- "armenian"
- "basque"- "basque"
- "brazilian"- "brazilian"
– "bulgarian"- "bulgarian"
- "catalan"- "catalan"
- "czech"- "czech"
- "danish"- "danish"
- "dutch"- "dutch"
- "dutchKp"- "dutchKp"
- "english"- "english"
- "lightEnglish"- "lightEnglish"
- "minimalEnglish"- "minimalEnglish"
- "possessiveEnglish"- "possessiveEnglish"
- "porter2"- "porter2"
- "lovins"- "lovins"
- "finnish"- "finnish"
– "lightFinnish"- "lightFinnish"
- "french"- "french"
- "lightFrench"- "lightFrench"
- "minimalFrench"- "minimalFrench"
– "galician"- "galician"
– "minimalGalician"- "minimalGalician"
- "german"- "german"
- "german2"- "german2"
- "lightGerman"- "lightGerman"
– "minimalGerman"- "minimalGerman"
- "greek"- "greek"
– "hindi"- "hindi"
- "hungarian"- "hungarian"
- "lightHungarian"- "lightHungarian"
- "indonesian"- "indonesian"
- "irish"- "irish"
- "italian"- "italian"
- "lightItalian"- "lightItalian"
- "sorani"- "sorani"
- "latvian"- "latvian"
- "norwegian"- "norwegian"
- "lightNorwegian"- "lightNorwegian"
- "minimalNorwegian"- "minimalNorwegian"
- "lightNynorsk"- "lightNynorsk"
- "minimalNynorsk"- "minimalNynorsk"
- "portuguese"- "portuguese"
- "lightPortuguese"- "lightPortuguese"
- "minimalPortuguese"- "minimalPortuguese"
- "portugueseRslp"- "portugueseRslp"
- "romanian"- "romanian"
- "russian"- "russian"
- "lightRussian"- "lightRussian"
- "spanish"- "spanish"
- "lightSpanish"- "lightSpanish"
- "swedish"- "swedish"
– "lightSwedish"- "lightSwedish"
- "turkish"- "turkish"
stemmer_overridestemmer_override StemmerOverrideTokenFilterStemmerOverrideTokenFilter Alle aus einem Wörterbuch stammenden Begriffe werden als Schlüsselwörter markiert, wodurch verhindert wird, dass sie die Kette hinuntergereicht werden.Any dictionary-Stemmed terms are marked as keywords, which prevents stemming down the chain. Muss vor dem Filter für die Wortstammerkennung platziert werden.Must be placed before any stemming filters.

OptionenOptions

rules (Typ: Zeichenfolgenarray) – Wortstammerkennungsregeln im folgenden Format: "word => stem" zum Beispiel "ran => run".rules (type: string array) - Stemming rules in the following format "word => stem" for example "ran => run". Der Standardwert ist eine leere Liste.The default is an empty list. Erforderlich.Required.
stopwordsstopwords StopwordsTokenFilterStopwordsTokenFilter Entfernt Stoppwörter aus einem Tokenstream.Removes stop words from a token stream. Standardmäßig verwendet der Filter eine vordefinierte Stoppwortliste für Englisch.By default, the filter uses a predefined stop word list for English.

OptionenOptions

stopwords (Typ: Zeichenfolgenarray) – eine Liste an Stoppwörtern.stopwords (type: string array) - A list of stopwords. Kann nicht angegeben werden, wenn eine „stopwordsList“ angegeben wird.Cannot be specified if a stopwordsList is specified.

stopwordsList (Typ: Zeichenfolge) – eine vordefinierte Liste an Stoppwörtern.stopwordsList (type: string) - A predefined list of stopwords. Kann nicht angegeben werden, wenn ein Stoppwort angegeben ist.Cannot be specified if stopwords is specified. Zulässige Werte sind:"arabic", "armenian", "basque", "brazilian", "bulgarian", "catalan", "czech", "danish", "dutch", "english", "finnish", "french", "galician", "german", "greek", "hindi", "hungarian", "indonesian", "irish", "italian", "latvian", "norwegian", "persian", "portuguese", "romanian", "russian", "sorani", "spanish", "swedish", "thai", "turkish", default: "english".Allowed values include:"arabic", "armenian", "basque", "brazilian", "bulgarian", "catalan", "czech", "danish", "dutch", "english", "finnish", "french", "galician", "german", "greek", "hindi", "hungarian", "indonesian", "irish", "italian", "latvian", "norwegian", "persian", "portuguese", "romanian", "russian", "sorani", "spanish", "swedish", "thai", "turkish", default: "english". Kann nicht angegeben werden, wenn ein Stoppwort angegeben ist.Cannot be specified if stopwords is specified.

ignoreCase (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, werden zunächst alle Wörter klein geschrieben.ignoreCase (type: bool) - If true, all words are lower cased first. Die Standardeinstellung ist „false“.The default is false.

removeTrailing (Typ: Boolscher Wert) – wenn auf „true“ gesetzt, wird der letzte Suchbegriff ignoriert, wenn dieser ein Stoppwort ist.removeTrailing (type: bool) - If true, ignore the last search term if it's a stop word. Der Standardwert ist „true“.The default is true.
synonymsynonym SynonymTokenFilterSynonymTokenFilter Gleicht Synonyme mit einzelnen oder mehreren Wörtern in einem Tokenstream ab.Matches single or multi word synonyms in a token stream.

OptionenOptions

synonyms (Typ: Zeichenfolgenarray) – erforderlich.synonyms (type: string array) - Required. Liste von Synonymen in einem der beiden folgenden Formate:List of synonyms in one of the following two formats:

-incredible, unbelievable, fabulous => amazing – alle Begriffe auf der linken Seite von => werden durch alle Begriffe auf der rechten Seite ersetzt.-incredible, unbelievable, fabulous => amazing - all terms on the left side of => symbol are replaced with all terms on its right side.

-incredible, unbelievable, fabulous, amazing – eine durch Kommas getrennte Liste von äquivalenten Wörtern.-incredible, unbelievable, fabulous, amazing - A comma-separated list of equivalent words. Legen Sie die expand-Option fest, um zu ändern, wie diese Liste interpretiert wird.Set the expand option to change how this list is interpreted.

ignoreCase (Type: Boolscher Wert) – Groß-/Kleinschreibung faltet die Eingabe für den Abgleich.ignoreCase (type: bool) - Case-folds input for matching. Die Standardeinstellung ist „false“.The default is false.

expand (Typ: Boolscher Wert) – wenn „true“ werden alle Wörter in der Liste der Synonyme (wenn Notation => nicht verwendet wird) einander zugeordnet.expand (type: bool) - If true, all words in the list of synonyms (if => notation is not used) map to one another.
Die folgende Liste: „incredible, unbelievable, fabulous, amazing“ entspricht: „incredible, unbelievable, fabulous, amazing => incredible, unbelievable, fabulous, amazing“The following list: incredible, unbelievable, fabulous, amazing is equivalent to: incredible, unbelievable, fabulous, amazing => incredible, unbelievable, fabulous, amazing

Wenn „false“: die folgende Liste: „incredible, unbelievable, fabulous, amazing“ entspricht: „ incredible, unbelievable, fabulous, amazing => incredible“- If false, the following list: incredible, unbelievable, fabulous, amazing are equivalent to: incredible, unbelievable, fabulous, amazing => incredible.
trimtrim (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Entfernt führende und nachfolgende Leerzeichen aus Token.Trims leading and trailing whitespace from tokens.
truncatetruncate TruncateTokenFilterTruncateTokenFilter Schneidet die Begriffe auf eine bestimmte Länge zu.Truncates the terms into a specific length.

OptionenOptions

length (Typ: int) – Standard: 300, Maximum: 300.length (type: int) - Default: 300, maximum: 300. Erforderlich.Required.
uniqueunique UniqueTokenFilterUniqueTokenFilter Filtert Token mit dem gleichen Text wie das vorherige Token heraus.Filters out tokens with same text as the previous token.

OptionenOptions

onlyOnSamePosition (Typ: Boolscher Wert) – wenn festgelegt, werden nur Duplikate an der selben Position entfernt.onlyOnSamePosition (type: bool) - If set, remove duplicates only at the same position. Der Standardwert ist „true“.The default is true.
uppercaseuppercase (Der Typ gilt nur, wenn Optionen verfügbar sind.)(type applies only when options are available) Normalisiert Tokentext in Großbuchstaben.Normalizes token text to upper case.
word_delimiterword_delimiter WordDelimiterTokenFilterWordDelimiterTokenFilter Unterteilt Wörter in Teilwörter und führt optionale Transformationen in Teilwortgruppen durch.Splits words into subwords and performs optional transformations on subword groups.

OptionenOptions

generateWordParts (Typ: Boolscher Wert) – dadurch werden Teile von Wörtern generiert, z.B. wird aus „AzureSearch“ „Azure“ „Search“.generateWordParts (type: bool) - Causes parts of words to be generated, for example "AzureSearch" becomes "Azure" "Search". Der Standardwert ist „true“.The default is true.

generateNumberParts (Typ: Boolscher Wert) – führt dazu, dass Nummernteilwörter generiert werden.generateNumberParts (type: bool) - Causes number subwords to be generated. Der Standardwert ist „true“.The default is true.

catenateWords (Typ: Boolscher Wert) – verursacht maximale Durchläufe von Wortteilen, die verkettete werden, z.B. wird aus „Azure-Search“ „AzureSearch“.catenateWords (type: bool) - Causes maximum runs of word parts to be catenated, for example "Azure-Search" becomes "AzureSearch". Die Standardeinstellung ist „false“.The default is false.

catenateNumbers (Typ: Boolscher Wert) – verursacht maximale Durchläufe von Nummernteilen, die verkettete werden, z.B. wird aus „1-2“ „12“.catenateNumbers (type: bool) - Causes maximum runs of number parts to be catenated, for example "1-2" becomes "12". Die Standardeinstellung ist „false“.The default is false.

catenateAll (Typ: Boolscher Wert) –verursacht, dass alle Teilwörterteile verkettete werden, z.B. wird aus „Azure-Search-1“ „AzureSearch1“.catenateAll (type: bool) - Causes all subword parts to be catenated, e.g "Azure-Search-1" becomes "AzureSearch1". Die Standardeinstellung ist „false“.The default is false.

splitOnCaseChange (Typ: Boolscher Wert) – wenn „true“, werden Wörter bei einem Wechsel der Schreibung aufgeteilt, z.B. wird aus „AzureSearch“ „Azure“ „Search“.splitOnCaseChange (type: bool) - If true, splits words on caseChange, for example "AzureSearch" becomes "Azure" "Search". Der Standardwert ist „true“.The default is true.

preserveOriginal – führt dazu, dass die ursprünglichen Wörter beibehalten und zur Teilwortliste hinzugefügt werden.preserveOriginal - Causes original words to be preserved and added to the subword list. Die Standardeinstellung ist „false“.The default is false.

splitOnNumerics (Typ: Boolscher Wert) – wenn „true“ erfolgt die Teilung bei Zahlen, z.B. wird aus „Azure1Search“ „Azure“ „1“ „Search“.splitOnNumerics (type: bool) - If true, splits on numbers, for example "Azure1Search" becomes "Azure" "1" "Search". Der Standardwert ist „true“.The default is true.

stemEnglishPossessive (Typ: Boolscher Wert) – führt dazu, dass das nachgestellte „s“ für jedes Teilwort entfernt werden.stemEnglishPossessive (type: bool) - Causes trailing "'s" to be removed for each subword. Der Standardwert ist „true“.The default is true.

protectedWords (Type: Zeichenfolgenarray) – Token, die vor dem Trennen geschützt werden sollen.protectedWords (type: string array) - Tokens to protect from being delimited. Der Standardwert ist eine leere Liste.The default is an empty list.

1 Tokenfiltertypen wird in Code immer „#Microsoft.Azure.Search“ vorangestellt, sodass „ArabicNormalizationTokenFilter“ als „#Microsoft.Azure.Search.ArabicNormalizationTokenFilter“ angegeben wird.1 Token Filter Types are always prefixed in code with "#Microsoft.Azure.Search" such that "ArabicNormalizationTokenFilter" would actually be specified as "#Microsoft.Azure.Search.ArabicNormalizationTokenFilter". Wir haben das Präfix entfernt, um die Breite der Tabelle zu verringern, denken Sie aber daran, das Präfix in Ihren Code einzubinden.We removed the prefix to reduce the width of the table, but please remember to include it in your code.

Weitere InformationenSee also

Azure Search-Dienst-REST-API Azure Search Service REST
Analysetools in Azure Search > Beispiele Analyzers in Azure Search > Examples
Erstellen eines Index (Azure Search-Dienst-REST-API)Create Index (Azure Search Service REST API)