Share via


LexicalTokenizerName type

Definiert Werte für LexicalTokenizerName.
<xref:KnownLexicalTokenizerName> kann austauschbar mit LexicalTokenizerName verwendet werden. Diese Enumeration enthält die bekannten Werte, die der Dienst unterstützt.

Bekannte Werte, die vom Dienst unterstützt werden

classic: Grammatikbasierter Tokenizer, der sich für die Verarbeitung der meisten dokumente in europäischer Sprache eignet. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.
edgeNGram: Tokenisiert die Eingabe von einer Kante in n-Gramm der angegebenen Größe(n). Siehe https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.
keyword_v2: Gibt die gesamte Eingabe als einzelnes Token aus. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.
letter: Unterteilt Text in Nicht-Buchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.
Kleinbuchstaben: Teilt Text in Nichtbuchstaben und konvertiert sie in Kleinbuchstaben. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.
microsoft_language_tokenizer: Unterteilt Text mithilfe sprachspezifischer Regeln.
microsoft_language_stemming_tokenizer: Unterteilt Text mithilfe sprachspezifischer Regeln und reduziert Wörter auf ihre Basisformen.
nGram: Tokenisiert die Eingabe in n-Gramm der angegebenen Größe(n). Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.
path_hierarchy_v2: Tokenizer für pfadähnliche Hierarchien. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.
pattern: Tokenizer, der den Abgleich von RegEx-Mustern verwendet, um unterschiedliche Token zu erstellen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.
standard_v2: Lucene Standard-Analysetool; Besteht aus dem Standardtokenizer, dem Kleinbuchstabenfilter und dem Stoppfilter. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.
uax_url_email: Tokenisiert URLs und E-Mails als ein Token. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.
Leerraum: Teilt Text in Leerzeichen. Siehe http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html

type LexicalTokenizerName = string