Apostrophe
|
アポストロフィ以降 (アポストロフィ自体を含む) のすべての文字が除去されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html」を参照してください。
|
ArabicNormalization
|
アラビア語ノーマライザーを適用して正書法を正規化するトークン フィルター。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html」を参照してください。
|
AsciiFolding
|
最初の 127 文字の ASCII 文字 ("Basic Latin" Unicode ブロック) にないアルファベット文字、数値文字、およびシンボリック Unicode 文字を、ASCII に相当する文字 (存在する場合) に変換します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html」を参照してください。
|
CjkBigram
|
標準トークナイザーから生成される CJK 用語のビッグラムを形成します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html」を参照してください。
|
CjkWidth
|
CJK の幅の違いが正規化されます。 全角 ASCII バリアントを同等の基本的なラテン語に、半角カタカナのバリアントを同等のかなに折りたたみます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html」を参照してください。
|
Classic
|
英語の所有物とドットを頭字語から削除します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html」を参照してください。
|
CommonGram
|
インデックス付けの間に、頻繁に発生する用語に対してバイグラムが作成されます。 1 つの用語も、バイグラムがオーバーレイされてインデックス付けされます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html」を参照してください。
|
EdgeNGram
|
入力トークンの前面または背面から始まる、指定されたサイズの n-gram を生成します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html」を参照してください。
|
Elision
|
省略記号が削除されます。 たとえば、"l'avion" (平面) は "avion" (平面) に変換されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html」を参照してください。
|
GermanNormalization
|
German2 スノーボール アルゴリズムのヒューリスティックに従って、ドイツ語の文字を正規化します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html」を参照してください。
|
HindiNormalization
|
ヒンディー語のテキストが正規化され、スペルのバリエーションの違いが削除されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html」を参照してください。
|
IndicNormalization
|
インドの言語でのテキストの Unicode 表現が正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html」を参照してください。
|
KeywordRepeat
|
各受信トークンを 2 回、キーワード (keyword)として 1 回、非キーワード (keyword)として 1 回出力します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html」を参照してください。
|
KStem
|
英語用の高パフォーマンスの kstem フィルター。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html」を参照してください。
|
Length
|
長すぎる単語または短すぎる単語が削除されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html」を参照してください。
|
Limit
|
インデックス付けの間に、トークンの数が制限されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html」を参照してください。
|
Lowercase
|
トークンのテキストが小文字に正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm」を参照してください。
|
NGram
|
指定サイズの n グラムが生成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html」を参照してください。
|
PersianNormalization
|
ペルシャ語の正規化が適用されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html」を参照してください。
|
Phonetic
|
音声一致用のトークンが作成されます。 「https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html」を参照してください。
|
PorterStem
|
Porter ステミング アルゴリズムを使用してトークン ストリームを変換します。 「http://tartarus.org/~martin/PorterStemmer」を参照してください。
|
Reverse
|
トークンの文字列が反転されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html」を参照してください。
|
ScandinavianFoldingNormalization
|
スカンジナビア語の文字が åÅäæÄÆ->a および öÖøØ->o にフォールドされます。 また、重母音 aa、ae、ao、oe、oo の使用を判別し、最初の 1 つだけが残されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html」を参照してください。
|
ScandinavianNormalization
|
交換可能なスカンジナビア語の文字の使用を正規化します。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html」を参照してください。
|
Shingle
|
トークンの組み合わせが 1 つのトークンとして作成されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html」を参照してください。
|
Snowball
|
Snowball で生成されたステマーを使用して単語をステミングするフィルター。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html」を参照してください。
|
SoraniNormalization
|
ソラニー語テキストの Unicode 表現が正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html」を参照してください。
|
Stemmer
|
言語固有のステミング フィルター。 「https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters」を参照してください。
|
Stopwords
|
トークン ストリームからストップワードが削除されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html」を参照してください。
|
Trim
|
先頭と末尾の空白文字がトークンからトリミングされます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html」を参照してください。
|
Truncate
|
用語を特定の長さに切り捨てます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html」を参照してください。
|
Unique
|
前のトークンと同じテキストのトークンが除外されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html」を参照してください。
|
Uppercase
|
トークンのテキストが大文字に正規化されます。 「http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html」を参照してください。
|
WordDelimiter
|
単語がサブ単語に分割され、部分語のグループに対してオプションの変換が実行されます。
|