MicrosoftLanguageTokenizer クラス

定義

言語固有のルールを使用してテキストが分割されます。

[Newtonsoft.Json.JsonObject("#Microsoft.Azure.Search.MicrosoftLanguageTokenizer")]
public class MicrosoftLanguageTokenizer : Microsoft.Azure.Search.Models.Tokenizer
[<Newtonsoft.Json.JsonObject("#Microsoft.Azure.Search.MicrosoftLanguageTokenizer")>]
type MicrosoftLanguageTokenizer = class
    inherit Tokenizer
Public Class MicrosoftLanguageTokenizer
Inherits Tokenizer
継承
MicrosoftLanguageTokenizer
属性
Newtonsoft.Json.JsonObjectAttribute

コンストラクター

MicrosoftLanguageTokenizer()

MicrosoftLanguageTokenizer クラスの新しいインスタンスを初期化します。

MicrosoftLanguageTokenizer(String, Nullable<Int32>, Nullable<Boolean>, Nullable<MicrosoftTokenizerLanguage>)

MicrosoftLanguageTokenizer クラスの新しいインスタンスを初期化します。

プロパティ

IsSearchTokenizer

トークナイザーの使用方法を示す値を取得または設定します。 検索トークナイザーとして使用する場合は true に設定し、インデックス作成トークナイザーとして使用する場合は false に設定します。 既定値は false です。

Language

使用する言語を取得または設定します。 既定値は英語です。 使用できる値は、'bangla'、'ブルガリア'、'カタロニア'、'chineseSimplified'、'chineseTraditional'、'czechn'、'czech'、'デンマーク'、'オランダ'、'english'、'french'、'german'、'greek'、'gujarati'、'ヒンディー語'、'アイスランド語'、'インドネシア'、'italian'、です。 'japanese'、'kannada'、'korean'、'malay'、'marayalam'、'marathi'、'norwegianBokmaal'、'polish'、'portuguese'、'portugueseBrazilian'、'punjabi'、'roman'、'russian'、'serbianCyrillic'、'serbianLatin'、'slovenian'、'spanish'、'swedish'、'tamil'、'telugu'、'thai'、'ウクライナ語'、'urdu'、'vietnamese'

MaxTokenLength

トークンの最大長を取得または設定します。 最大長より長いトークンは分割されます。 使用できる最大トークン長は、300 文字です。 300 文字を超えるトークンは、最初に長さ 300 のトークンに分割され、それらの各トークンは最大トークン長セットに基づいて分割されます。 既定値は 255 です。

Name

トークナイザーの名前を取得または設定します。 アルファベット、数字、空白、ダッシュ、アンダースコアのみを含める必要があります。また、最初と最後の文字は英数字にする必要があり、長さは 128 文字までに制限されています。

(継承元 Tokenizer)

メソッド

Validate()

オブジェクトを検証します。

適用対象