次の方法で共有


KnownTokenizerNames enum

サービスが受け入れる LexicalTokenizerName の既知の値。

フィールド

Classic

ほとんどのヨーロッパ言語ドキュメントの処理に適した文法ベースのトークナイザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html」を参照してください。

EdgeNGram

エッジからの入力を、指定されたサイズの n グラムにトークン化します。 「https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html」を参照してください。

Keyword

入力全体が 1 つのトークンとして生成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html」を参照してください。

Letter

非文字でテキストを分割します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html」を参照してください。

Lowercase

非文字でテキストが分割され、それらが小文字に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html」を参照してください。

MicrosoftLanguageStemmingTokenizer

言語固有のルールを使用してテキストが分割され、基本フォームに単語が減らされます。

MicrosoftLanguageTokenizer

言語固有のルールを使用してテキストが分割されます。

NGram

入力が指定サイズの n グラムにトークン化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html」を参照してください。

PathHierarchy

パスのような階層のトークナイザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html」を参照してください。

Pattern

正規表現パターン マッチングを使用して個別のトークンを構築するトークナイザー。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html」を参照してください。

Standard

Standard Lucene アナライザー。標準のトークナイザー、小文字のフィルター、および停止フィルターで構成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html」を参照してください。

UaxUrlEmail

URL と電子メールが 1 つのトークンとしてトークン化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html」を参照してください。

Whitespace

空白文字によりテキストが分割されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html」を参照してください。