Indexes - List

Seznamy všechny indexy dostupné pro vyhledávací službu.

GET {endpoint}/indexes?api-version=2023-11-01
GET {endpoint}/indexes?$select={$select}&api-version=2023-11-01

Parametry identifikátoru URI

Name V Vyžadováno Typ Description
endpoint
path True

string

Adresa URL koncového bodu vyhledávací služby.

api-version
query True

string

Verze rozhraní API klienta.

$select
query

string

Vybere vlastnosti nejvyšší úrovně definic indexů, které se mají načíst. Určuje se jako seznam názvů vlastností JSON oddělených čárkami nebo * pro všechny vlastnosti. Výchozí hodnota je všechny vlastnosti.

Hlavička požadavku

Name Vyžadováno Typ Description
x-ms-client-request-id

string

uuid

ID sledování odeslané spolu s požadavkem na pomoc s laděním.

Odpovědi

Name Typ Description
200 OK

ListIndexesResult

Other Status Codes

SearchError

Chybová odpověď.

Příklady

SearchServiceListIndexes

Sample Request

GET https://myservice.search.windows.net/indexes?$select=*&api-version=2023-11-01

Sample Response

{
  "value": [
    {
      "name": "hotels",
      "fields": [
        {
          "name": "hotelId",
          "type": "Edm.String",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": true,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "baseRate",
          "type": "Edm.Double",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "description",
          "type": "Edm.String",
          "searchable": true,
          "filterable": false,
          "retrievable": true,
          "sortable": false,
          "facetable": false,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "description_fr",
          "type": "Edm.String",
          "searchable": true,
          "filterable": false,
          "retrievable": true,
          "sortable": false,
          "facetable": false,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": "fr.lucene",
          "synonymMaps": []
        },
        {
          "name": "hotelName",
          "type": "Edm.String",
          "searchable": true,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "category",
          "type": "Edm.String",
          "searchable": true,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "tags",
          "type": "Collection(Edm.String)",
          "searchable": true,
          "filterable": true,
          "retrievable": true,
          "sortable": false,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": "tagsAnalyzer",
          "synonymMaps": []
        },
        {
          "name": "parkingIncluded",
          "type": "Edm.Boolean",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "smokingAllowed",
          "type": "Edm.Boolean",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "lastRenovationDate",
          "type": "Edm.DateTimeOffset",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "rating",
          "type": "Edm.Int32",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": true,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "location",
          "type": "Edm.GeographyPoint",
          "searchable": false,
          "filterable": true,
          "retrievable": true,
          "sortable": true,
          "facetable": false,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        }
      ],
      "scoringProfiles": [
        {
          "name": "geo",
          "text": {
            "weights": {
              "hotelName": 5
            }
          },
          "functions": [
            {
              "type": "distance",
              "boost": 5,
              "fieldName": "location",
              "interpolation": "logarithmic",
              "distance": {
                "referencePointParameter": "currentLocation",
                "boostingDistance": 10
              }
            }
          ]
        }
      ],
      "defaultScoringProfile": "geo",
      "suggesters": [
        {
          "name": "sg",
          "searchMode": "analyzingInfixMatching",
          "sourceFields": [
            "hotelName"
          ]
        }
      ],
      "analyzers": [
        {
          "name": "tagsAnalyzer",
          "@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
          "charFilters": [
            "html_strip"
          ],
          "tokenizer": "standard_v2"
        }
      ],
      "tokenizers": [],
      "tokenFilters": [],
      "charFilters": [],
      "corsOptions": {
        "allowedOrigins": [
          "tempuri.org"
        ],
        "maxAgeInSeconds": 60
      },
      "encryptionKey": {
        "keyVaultKeyName": "myKeyName",
        "keyVaultKeyVersion": "myKeyVersion",
        "keyVaultUri": "https://myKeyVault.vault.azure.net",
        "accessCredentials": null
      },
      "semantic": {
        "configurations": [
          {
            "name": "semanticHotels",
            "prioritizedFields": {
              "titleField": {
                "fieldName": "hotelName"
              },
              "prioritizedContentFields": [
                {
                  "fieldName": "description"
                },
                {
                  "fieldName": "description_fr"
                }
              ],
              "prioritizedKeywordsFields": [
                {
                  "fieldName": "tags"
                },
                {
                  "fieldName": "category"
                }
              ]
            }
          }
        ]
      }
    },
    {
      "name": "testindex",
      "fields": [
        {
          "name": "id",
          "type": "Edm.String",
          "searchable": false,
          "filterable": false,
          "retrievable": true,
          "sortable": false,
          "facetable": false,
          "key": true,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        },
        {
          "name": "hidden",
          "type": "Edm.Double",
          "searchable": false,
          "filterable": true,
          "retrievable": false,
          "sortable": true,
          "facetable": false,
          "key": false,
          "indexAnalyzer": null,
          "searchAnalyzer": null,
          "analyzer": null,
          "synonymMaps": []
        }
      ],
      "scoringProfiles": [],
      "defaultScoringProfile": null,
      "suggesters": [],
      "analyzers": [],
      "tokenizers": [],
      "tokenFilters": [],
      "charFilters": [],
      "corsOptions": null,
      "encryptionKey": null
    }
  ]
}

Definice

Name Description
AsciiFoldingTokenFilter

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 ASCII znaků (blok Unicode "základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

AzureActiveDirectoryApplicationCredentials

Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým v Azure Key Vault.

BM25Similarity

Funkce řazení založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost frekvence termínu (řízená parametrem k1).

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

CjkBigramTokenFilter

Vytváří bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

CjkBigramTokenFilterScripts

Skripty, které může CjkBigramTokenFilter ignorovat.

ClassicSimilarity

Starší algoritmus podobnosti, který používá lucene TFIDFSimilarity implementaci TF-IDF. Tato varianta TF-IDF zavádí normalizaci statické délky dokumentů a také koordinující faktory, které penalizují dokumenty, které pouze částečně odpovídají prohledáným dotazům.

ClassicTokenizer

Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizátor se implementuje pomocí Apache Lucene.

CommonGramTokenFilter

Při indexování můžete vytvářet bigramy pro často se vyskytující termíny. Indexují se také jednotlivé termíny s překryvnými bigramy. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

CorsOptions

Definuje možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index.

CustomAnalyzer

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za rozdělení textu do tokenů a filtry pro úpravu tokenů vygenerovaných tokenizátorem.

DictionaryDecompounderTokenFilter

Rozloží složená slova nalezená v mnoha germánských jazycích. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

DistanceScoringFunction

Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění.

DistanceScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti.

EdgeNGramTokenFilter

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

EdgeNGramTokenFilterSide

Určuje, ze které strany vstupu se má vygenerovat n-gram.

EdgeNGramTokenFilterV2

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

EdgeNGramTokenizer

Tokenizuje vstup z hrany na n-gramů dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

ElisionTokenFilter

Odstraní elisions. Například "l'avion" (letadlo) se převede na "avion" (letadlo). Tento filtr tokenů je implementovaný pomocí Apache Lucene.

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém vektorovém indexu.

FreshnessScoringFunction

Definuje funkci, která zvyšuje skóre na základě hodnoty pole datum a čas.

FreshnessScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti.

HnswParameters

Obsahuje parametry specifické pro algoritmu HNSW.

HnswVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro algoritmus přibližných nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí přizpůsobitelný kompromis mezi rychlostí vyhledávání a přesností.

KeepTokenFilter

Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenů se implementuje pomocí Apache Lucene.

KeywordMarkerTokenFilter

Označí termíny jako klíčová slova. Tento filtr tokenů se implementuje pomocí Apache Lucene.

KeywordTokenizer

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

KeywordTokenizerV2

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

LengthTokenFilter

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů se implementuje pomocí Apache Lucene.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

LimitTokenFilter

Omezuje počet tokenů při indexování. Tento filtr tokenů se implementuje pomocí Apache Lucene.

ListIndexesResult

Odpověď z požadavku Indexy seznamu. V případě úspěchu zahrnuje úplné definice všech indexů.

LuceneStandardAnalyzer

Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malých písmen a filtru zastavení.

LuceneStandardTokenizer

Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

LuceneStandardTokenizerV2

Zalomí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

MagnitudeScoringFunction

Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.

MagnitudeScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování velikosti.

MappingCharFilter

Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene.

MicrosoftLanguageStemmingTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.

MicrosoftLanguageTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk.

MicrosoftStemmingTokenizerLanguage

Seznamy jazyky podporované tokenizátorem jazyka od Microsoftu.

MicrosoftTokenizerLanguage

Seznamy jazyky podporované tokenizátorem jazyka od Microsoftu.

NGramTokenFilter

Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene.

NGramTokenFilterV2

Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene.

NGramTokenizer

Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

PathHierarchyTokenizerV2

Tokenizátor pro hierarchie podobné cestám. Tento tokenizátor se implementuje pomocí Apache Lucene.

PatternAnalyzer

Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Tento analyzátor je implementovaný pomocí Apache Lucene.

PatternCaptureTokenFilter

Používá regulární výrazy Jazyka Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů se implementuje pomocí Apache Lucene.

PatternReplaceCharFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene.

PatternReplaceTokenFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů se implementuje pomocí Apache Lucene.

PatternTokenizer

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.

PhoneticEncoder

Určuje typ fonetického kodéru, který se má použít s phoneticTokenFilter.

PhoneticTokenFilter

Vytvoření tokenů pro fonetické shody Tento filtr tokenů se implementuje pomocí Apache Lucene.

PrioritizedFields

Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.

RegexFlags

Definuje příznaky, které lze kombinovat a řídit způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.

ScoringFunctionAggregation

Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu.

ScoringFunctionInterpolation

Definuje funkci, která se používá k interpolaci zvýšení skóre napříč celou řadou dokumentů.

ScoringProfile

Definuje parametry pro index vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech.

SearchError

Popisuje chybový stav rozhraní API.

SearchField

Představuje pole v definici indexu, která popisuje název, datový typ a chování hledání pole.

SearchFieldDataType

Definuje datový typ pole ve vyhledávacím indexu.

SearchIndex

Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu.

SearchResourceEncryptionKey

Šifrovací klíč spravovaný zákazníkem v Azure Key Vault. Klíče, které vytvoříte a spravujete, můžete použít k šifrování nebo dešifrování neaktivních uložených dat ve vyhledávací službě, jako jsou indexy a mapy synonym.

SemanticConfiguration

Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností.

SemanticField

Pole, které se používá jako součást sémantické konfigurace.

SemanticSettings

Definuje parametry pro index vyhledávání, které ovlivňují sémantické funkce.

ShingleTokenFilter

Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů se implementuje pomocí Apache Lucene.

SnowballTokenFilter

Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Tento filtr tokenů se implementuje pomocí Apache Lucene.

SnowballTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenu Snowball.

StemmerOverrideTokenFilter

Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního slovníkového stemmingu. Všechny termíny se slovníkovou stopou budou označeny jako klíčová slova, takže nebudou označeny stemmers v řetězci. Musí být umístěn před jakékoli filtry stopky. Tento filtr tokenů se implementuje pomocí Apache Lucene.

StemmerTokenFilter

Filtr stemmingu pro konkrétní jazyk. Tento filtr tokenů se implementuje pomocí Apache Lucene.

StemmerTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů kmene.

StopAnalyzer

Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Tento analyzátor je implementovaný pomocí Apache Lucene.

StopwordsList

Identifikuje předdefinovaný seznam zarážek specifických pro konkrétní jazyk.

StopwordsTokenFilter

Odebere slova stop z datového proudu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Suggester

Definuje, jak by se rozhraní API Pro návrhy mělo použít na skupinu polí v indexu.

SuggesterSearchMode

Hodnota označující možnosti návrhu.

SynonymTokenFilter

Odpovídá jednoslovné nebo víceslovné synonymum ve streamu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.

TagScoringFunction

Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu značek.

TagScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování značek.

TextWeights

Definuje váhy polí indexu, jejichž shody by měly zvýšit skóre ve vyhledávacích dotazech.

TokenCharacterKind

Představuje třídy znaků, se kterými může filtr tokenů pracovat.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

TruncateTokenFilter

Zkrátí termíny na určitou délku. Tento filtr tokenů se implementuje pomocí Apache Lucene.

UaxUrlEmailTokenizer

Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

UniqueTokenFilter

Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů se implementuje pomocí Apache Lucene.

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

VectorSearchAlgorithmKind

Algoritmus použitý pro indexování a dotazování.

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání.

VectorSearchProfile

Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním.

WordDelimiterTokenFilter

Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví. Tento filtr tokenů se implementuje pomocí Apache Lucene.

AsciiFoldingTokenFilter

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 ASCII znaků (blok Unicode "základní latinka") na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.AsciiFoldingTokenFilter

Fragment identifikátoru URI určující typ filtru tokenů.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

preserveOriginal

boolean

False

Hodnota označující, zda bude původní token zachován. Výchozí hodnota je false.

AzureActiveDirectoryApplicationCredentials

Přihlašovací údaje registrované aplikace vytvořené pro vaši vyhledávací službu, které slouží k ověřenému přístupu k šifrovacím klíčům uloženým v Azure Key Vault.

Name Typ Description
applicationId

string

ID aplikace AAD, kterému byla udělena požadovaná přístupová oprávnění k azure Key Vault, která se mají použít při šifrování neaktivních uložených dat. ID aplikace by se nemělo zaměňovat s ID objektu vaší aplikace AAD.

applicationSecret

string

Ověřovací klíč zadané aplikace AAD.

BM25Similarity

Funkce řazení založená na algoritmu podobnosti Okapi BM25. BM25 je algoritmus podobný TF-IDF, který zahrnuje normalizaci délky (řízenou parametrem "b") a také sytost frekvence termínu (řízená parametrem k1).

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.BM25Similarity

b

number

Tato vlastnost určuje, jak délka dokumentu ovlivňuje skóre relevance. Ve výchozím nastavení se používá hodnota 0,75. Hodnota 0,0 znamená, že není použita normalizace délky, zatímco hodnota 1,0 znamená, že skóre je plně normalizováno délkou dokumentu.

k1

number

Tato vlastnost řídí funkci škálování mezi četností termínů jednotlivých shodných termínů a konečným skóre relevance dvojice dokument-dotaz. Ve výchozím nastavení se používá hodnota 1,2. Hodnota 0,0 znamená, že se skóre nešupí se zvýšenou frekvencí termínu.

CharFilterName

Definuje názvy všech filtrů znaků podporovaných vyhledávacím webem.

Name Typ Description
html_strip

string

Filtr znaků, který se pokouší vysunout konstrukce HTML. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html.

CjkBigramTokenFilter

Vytváří bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.CjkBigramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenů.

ignoreScripts

CjkBigramTokenFilterScripts[]

Skripty, které se mají ignorovat.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

outputUnigrams

boolean

False

Hodnota označující, jestli se mají vydělovat jak unigramy, tak bigramy (pokud je pravda), nebo jenom bigramy (pokud false). Výchozí hodnota je false.

CjkBigramTokenFilterScripts

Skripty, které může CjkBigramTokenFilter ignorovat.

Name Typ Description
han

string

Při vytváření bigramů termínů CJK ignorujte skript Han.

hangul

string

Při vytváření bigramů výrazů CJK ignorujte skript Hangul.

hiragana

string

Při vytváření bigramů výrazů CJK ignorujte skript Hiragana.

katakana

string

Při vytváření bigramů termínů CJK ignorujte skript Katakana.

ClassicSimilarity

Starší algoritmus podobnosti, který používá lucene TFIDFSimilarity implementaci TF-IDF. Tato varianta TF-IDF zavádí normalizaci statické délky dokumentů a také koordinující faktory, které penalizují dokumenty, které pouze částečně odpovídají prohledáným dotazům.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ClassicSimilarity

ClassicTokenizer

Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.ClassicTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

CommonGramTokenFilter

Při indexování můžete vytvářet bigramy pro často se vyskytující termíny. Indexují se také jednotlivé termíny s překryvnými bigramy. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.CommonGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenů.

commonWords

string[]

Sada běžných slov.

ignoreCase

boolean

False

Hodnota označující, zda budou běžná slova rozlišovat malá a velká písmena. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

queryMode

boolean

False

Hodnota, která označuje, jestli je filtr tokenů v režimu dotazu. V režimu dotazu filtr tokenů vygeneruje bigramy a pak odebere běžná slova a jednotlivé termíny následované společným slovem. Výchozí hodnota je false.

CorsOptions

Definuje možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index.

Name Typ Description
allowedOrigins

string[]

Seznam původů, ze kterých bude kódu JavaScript udělen přístup k indexu. Může obsahovat seznam hostitelů ve formátu {protocol}://{plně kvalifikovaný-název_domény}[:{port#}] nebo jednoho * , který povolí všechny zdroje (nedoporučuje se).

maxAgeInSeconds

integer

Doba, po kterou by měly prohlížeče ukládat do mezipaměti předběžné odpovědi CORS. Výchozí hodnota je 5 minut.

CustomAnalyzer

Umožňuje převzít kontrolu nad procesem převodu textu na indexovatelné nebo prohledávatelné tokeny. Jedná se o uživatelsky definovanou konfiguraci, která se skládá z jednoho předdefinovaného tokenizátoru a jednoho nebo více filtrů. Tokenizátor zodpovídá za rozdělení textu do tokenů a filtry pro úpravu tokenů vygenerovaných tokenizátorem.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.CustomAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

charFilters

CharFilterName[]

Seznam filtrů znaků, které se používají k přípravě vstupního textu před jeho zpracováním tokenizátorem. Mohou například nahradit určité znaky nebo symboly. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

tokenFilters

TokenFilterName[]

Seznam filtrů tokenů používaných k odfiltrování nebo úpravě tokenů vygenerovaných tokenizátorem. Můžete například zadat filtr malých písmen, který převede všechny znaky na malá písmena. Filtry se spouštějí v pořadí, ve kterém jsou uvedeny.

tokenizer

LexicalTokenizerName

Název tokenizátoru, který se má použít k rozdělení souvislého textu na posloupnost tokenů, jako je rozdělení věty na slova.

DictionaryDecompounderTokenFilter

Rozloží složená slova nalezená v mnoha germánských jazycích. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.DictionaryDecompounderTokenFilter

Fragment identifikátoru URI určující typ filtru tokenů.

maxSubwordSize

integer

15

Maximální velikost podslovu Výstupem jsou pouze podsloví kratší než tento typ. Výchozí hodnota je 15. Maximum je 300.

minSubwordSize

integer

2

Minimální velikost podslovu. Výstupem jsou pouze podseložky delší než tento typ. Výchozí hodnota je 2. Maximum je 300.

minWordSize

integer

5

Minimální velikost slova Zpracují se pouze slova delší než tato. Výchozí hodnota je 5. Maximum je 300.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

onlyLongestMatch

boolean

False

Hodnota označující, zda se má do výstupu přidat pouze nejdelší odpovídající podslovo. Výchozí hodnota je false.

wordList

string[]

Seznam slov, která se mají shodovat.

DistanceScoringFunction

Definuje funkci, která zvyšuje skóre na základě vzdálenosti od zeměpisného umístění.

Name Typ Description
boost

number

Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0.

distance

DistanceScoringParameters

Hodnoty parametrů pro funkci bodování vzdálenosti.

fieldName

string

Název pole použitého jako vstup pro hodnoticí funkci.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární.

type string:

distance

Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé.

DistanceScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování vzdálenosti.

Name Typ Description
boostingDistance

number

Vzdálenost v kilometrech od referenčního umístění, kde oblast zesílení končí.

referencePointParameter

string

Název parametru předaného ve vyhledávacích dotazech, který určuje umístění odkazu.

EdgeNGramTokenFilter

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenů.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

side

EdgeNGramTokenFilterSide

front

Určuje, ze které strany vstupu se má vygenerovat n-gram. Výchozí hodnota je "fronta".

EdgeNGramTokenFilterSide

Určuje, ze které strany vstupu se má vygenerovat n-gram.

Name Typ Description
back

string

Určuje, že n-gram se má vygenerovat ze zadní části vstupu.

front

string

Určuje, že n-gram se má vygenerovat z přední části vstupu.

EdgeNGramTokenFilterV2

Vygeneruje n-gramy dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenFilterV2

Fragment identifikátoru URI určující typ filtru tokenů.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

side

EdgeNGramTokenFilterSide

front

Určuje, ze které strany vstupu se má vygenerovat n-gram. Výchozí hodnota je "fronta".

EdgeNGramTokenizer

Tokenizuje vstup z hrany na n-gramů dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.EdgeNGramTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

tokenChars

TokenCharacterKind[]

Třídy znaků, které se mají uchovávat v tokenech.

ElisionTokenFilter

Odstraní elisions. Například "l'avion" (letadlo) se převede na "avion" (letadlo). Tento filtr tokenů je implementovaný pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.ElisionTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

articles

string[]

Sada článků, které chcete odebrat.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

Name Typ Description
metric

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání.

ExhaustiveKnnVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro vyčerpávající algoritmus KNN použitý při dotazování, který provede vyhledávání hrubou silou v celém vektorovém indexu.

Name Typ Description
exhaustiveKnnParameters

ExhaustiveKnnParameters

Obsahuje parametry specifické pro vyčerpávající algoritmus KNN.

kind string:

exhaustiveKnn

Název typu algoritmu konfigurovaného pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní konfiguraci.

FreshnessScoringFunction

Definuje funkci, která zvyšuje skóre na základě hodnoty pole datum a čas.

Name Typ Description
boost

number

Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole použitého jako vstup pro hodnoticí funkci.

freshness

FreshnessScoringParameters

Hodnoty parametrů pro funkci bodování aktuálnosti.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární.

type string:

freshness

Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé.

FreshnessScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování aktuálnosti.

Name Typ Description
boostingDuration

string

Doba vypršení platnosti, po jejímž uplynutí se zvýšení podpory u určitého dokumentu zastaví.

HnswParameters

Obsahuje parametry specifické pro algoritmu HNSW.

Name Typ Výchozí hodnota Description
efConstruction

integer

400

Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby indexování. Zvýšení tohoto parametru může zlepšit kvalitu indexu na úkor delší doby indexování. Zvýšení tohoto parametru v určitém okamžiku vede ke snížení výnosu.

efSearch

integer

500

Velikost dynamického seznamu obsahujícího nejbližší sousedy, který se používá během doby hledání. Zvýšení tohoto parametru může zlepšit výsledky hledání na úkor pomalejšího vyhledávání. Zvýšení tohoto parametru v určitém okamžiku vede ke snížení výnosu.

m

integer

4

Počet obousměrných propojení vytvořených pro každý nový prvek během výstavby. Zvýšení této hodnoty parametru může zlepšit dobu úplnosti a zkrátit dobu načítání datových sad s vysokou vnitřní dimenzionalitou na úkor zvýšené spotřeby paměti a delší doby indexování.

metric

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání.

HnswVectorSearchAlgorithmConfiguration

Obsahuje možnosti konfigurace specifické pro algoritmus přibližných nejbližších sousedů HNSW, který se používá při indexování a dotazování. Algoritmus HNSW nabízí přizpůsobitelný kompromis mezi rychlostí vyhledávání a přesností.

Name Typ Description
hnswParameters

HnswParameters

Obsahuje parametry specifické pro algoritmus HNSW.

kind string:

hnsw

Název typu algoritmu konfigurovaného pro použití s vektorovým vyhledáváním.

name

string

Název, který chcete přidružit k této konkrétní konfiguraci.

KeepTokenFilter

Filtr tokenů, který uchovává pouze tokeny s textem obsaženým v zadaném seznamu slov. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.KeepTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

keepWords

string[]

Seznam slov, která se mají zachovat.

keepWordsCase

boolean

False

Hodnota označující, jestli se mají všechna slova nejdřív všechna malá písmena. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

KeywordMarkerTokenFilter

Označí termíny jako klíčová slova. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.KeywordMarkerTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreCase

boolean

False

Hodnota označující, zda se mají ignorovat malá a velká písmena. Pokud má hodnotu true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false.

keywords

string[]

Seznam slov, která se mají označit jako klíčová slova.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

KeywordTokenizer

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

bufferSize

integer

256

Velikost vyrovnávací paměti pro čtení v bajtech. Výchozí hodnota je 256.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

KeywordTokenizerV2

Vygeneruje celý vstup jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.KeywordTokenizerV2

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

256

Maximální délka tokenu. Výchozí hodnota je 256. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

LengthTokenFilter

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.LengthTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

max

integer

300

Maximální délka ve zna- Výchozí hodnota a maximum je 300.

min

integer

0

Minimální délka znaků. Výchozí hodnota je 0. Maximum je 300. Musí být menší než hodnota max.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

LexicalAnalyzerName

Definuje názvy všech analyzátorů textu podporovaných vyhledávacím webem.

Name Typ Description
ar.lucene

string

Analyzátor Lucene pro arabštinu.

ar.microsoft

string

Microsoft analyzer pro arabštinu.

bg.lucene

string

Analyzátor Lucene pro bulharštinu.

bg.microsoft

string

Microsoft analyzer pro bulharštinu.

bn.microsoft

string

Microsoft analyzer for Bangla.

ca.lucene

string

Analyzátor Lucene pro katalánštinu.

ca.microsoft

string

Microsoft analyzer pro katalánštinu.

cs.lucene

string

Analyzátor Lucene pro češtinu.

cs.microsoft

string

Microsoft analyzer pro češtinu.

da.lucene

string

Analyzátor Lucene pro dánštinu.

da.microsoft

string

Microsoft analyzer pro dánštinu.

de.lucene

string

Analyzátor Lucene pro němčinu.

de.microsoft

string

Microsoft analyzer pro němčinu.

el.lucene

string

Analyzátor Lucene pro řečtinu.

el.microsoft

string

Microsoft analyzer pro řečtinu.

en.lucene

string

Analyzátor Lucene pro angličtinu.

en.microsoft

string

Microsoft analyzer pro angličtinu.

es.lucene

string

Analyzátor Lucene pro španělštinu.

es.microsoft

string

Microsoft analyzer pro španělštinu.

et.microsoft

string

Microsoft analyzer pro estonštinu.

eu.lucene

string

Analyzátor Lucene pro baskičtina.

fa.lucene

string

Analyzátor Lucene pro perštinu.

fi.lucene

string

Analyzátor Lucene pro finštinu.

fi.microsoft

string

Microsoft analyzer pro finštinu.

fr.lucene

string

Analyzátor Lucene pro francouzštinu.

fr.microsoft

string

Microsoft analyzer pro francouzštinu.

ga.lucene

string

Analyzátor Lucene pro irštinu.

gl.lucene

string

Analyzátor Lucene pro galicijštinu.

gu.microsoft

string

Microsoft analyzer for Gujarati.

he.microsoft

string

Microsoft Analyzer pro hebrejštinu.

hi.lucene

string

Analyzátor Lucene pro hindštinu.

hi.microsoft

string

Microsoft analyzer pro hindštinu.

hr.microsoft

string

Microsoft analyzer pro chorvatštinu.

hu.lucene

string

Analyzátor Lucene pro maďarštinu.

hu.microsoft

string

Microsoft analyzer pro maďarštinu.

hy.lucene

string

Analyzátor Lucene pro arménštinu.

id.lucene

string

Analyzátor Lucene pro indonéštinu.

id.microsoft

string

Microsoft analyzer pro indonéštinu (Bahasa).

is.microsoft

string

Microsoft analyzer pro islandštinu.

it.lucene

string

Analyzátor Lucene pro italštinu.

it.microsoft

string

Microsoft analyzer pro italštinu.

ja.lucene

string

Analyzátor Lucene pro japonštinu.

ja.microsoft

string

Microsoft Analyzer pro japonštinu.

keyword

string

Zachází s celým obsahem pole jako s jedním tokenem. To je užitečné pro data, jako jsou PSČ, ID a některé názvy produktů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html.

kn.microsoft

string

Microsoft analyzer for Kannada.

ko.lucene

string

Analyzátor Lucene pro korejštinu.

ko.microsoft

string

Microsoft analyzer pro korejštinu.

lt.microsoft

string

Microsoft analyzer pro litevštinu.

lv.lucene

string

Analyzátor Lucene pro lotyštinu.

lv.microsoft

string

Microsoft analyzer pro lotyštinu.

ml.microsoft

string

Microsoft analyzer for Malayalam.

mr.microsoft

string

Microsoft analyzer for Marathi.

ms.microsoft

string

Microsoft analyzer for Malay (latinka).

nb.microsoft

string

Microsoft analyzer pro norštinu (Bokmål).

nl.lucene

string

Analyzátor Lucene pro nizozemštinu.

nl.microsoft

string

Microsoft analyzer pro holandštinu.

no.lucene

string

Analyzátor Lucene pro norštinu.

pa.microsoft

string

Microsoft analyzer for Padžábština.

pattern

string

Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html.

pl.lucene

string

Analyzátor Lucene pro polštinu.

pl.microsoft

string

Microsoft analyzer pro polštinu.

pt-BR.lucene

string

Analyzátor Lucene pro portugalštinu (Brazílie).

pt-BR.microsoft

string

Microsoft analyzer pro portugalštinu (Brazílie).

pt-PT.lucene

string

Analyzátor Lucene pro portugalštinu (Portugalsko).

pt-PT.microsoft

string

Microsoft analyzer pro portugalštinu (Portugalsko).

ro.lucene

string

Analyzátor Lucene pro rumunštinu.

ro.microsoft

string

Microsoft analyzer pro rumunštinu.

ru.lucene

string

Analyzátor Lucene pro ruštinu.

ru.microsoft

string

Microsoft analyzer pro ruštinu.

simple

string

Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html.

sk.microsoft

string

Microsoft analyzer pro slovenštinu.

sl.microsoft

string

Microsoft analyzer pro slovinštinu.

sr-cyrillic.microsoft

string

Microsoft analyzer pro srbštinu (cyrilice).

sr-latin.microsoft

string

Microsoft analyzer pro srbštinu (latinka).

standard.lucene

string

Standardní analyzátor Lucene.

standardasciifolding.lucene

string

Standard ASCII Folding Lucene analyzer. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers.

stop

string

Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html.

sv.lucene

string

Analyzátor Lucene pro švédštinu.

sv.microsoft

string

Microsoft analyzer pro švédštinu.

ta.microsoft

string

Microsoft analyzer for Tamilština.

te.microsoft

string

Microsoft analyzer for Telugu.

th.lucene

string

Analyzátor Lucene pro thajštinu.

th.microsoft

string

Microsoft analyzer pro thajštinu.

tr.lucene

string

Analyzátor Lucene pro turečtinu.

tr.microsoft

string

Microsoft analyzer pro turečtinu.

uk.microsoft

string

Microsoft analyzer pro ukrajinštinu.

ur.microsoft

string

Microsoft analyzer for Urdu.

vi.microsoft

string

Microsoft analyzer pro vietnamštinu.

whitespace

string

Analyzátor, který používá tokenizátor prázdných znaků. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html.

zh-Hans.lucene

string

Analyzátor Lucene pro čínštinu (zjednodušená).

zh-Hans.microsoft

string

Microsoft analyzer pro čínštinu (zjednodušená).

zh-Hant.lucene

string

Analyzátor Lucene pro čínštinu (tradiční).

zh-Hant.microsoft

string

Microsoft analyzer pro čínštinu (tradiční).

LexicalTokenizerName

Definuje názvy všech tokenizátorů podporovaných vyhledávacím webem.

Name Typ Description
classic

string

Tokenizátor založený na gramatice, který je vhodný pro zpracování většiny dokumentů v evropském jazyce. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html.

edgeNGram

string

Tokenizuje vstup z hrany na n-gramů dané velikosti. Viz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html.

keyword_v2

string

Vygeneruje celý vstup jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html.

letter

string

Rozdělí text na jiné než písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html.

lowercase

string

Rozdělí text na jiné než písmena a převede je na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html.

microsoft_language_stemming_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.

microsoft_language_tokenizer

string

Rozdělí text pomocí pravidel specifických pro jazyk.

nGram

string

Tokenizuje vstup na n-gramy dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html.

path_hierarchy_v2

string

Tokenizátor pro hierarchie podobné cestám. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html.

pattern

string

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html.

standard_v2

string

Standardní analyzátor Lucene; Skládá se ze standardního tokenizátoru, filtru malými písmeny a filtru zastavení. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html.

uax_url_email

string

Tokenizuje adresy URL a e-maily jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html.

whitespace

string

Rozdělí text na prázdné znaky. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html.

LimitTokenFilter

Omezuje počet tokenů při indexování. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.LimitTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

consumeAllTokens

boolean

False

Hodnota označující, jestli musí být všechny tokeny ze vstupu spotřebovány i v případě dosažení hodnoty maxTokenCount. Výchozí hodnota je false.

maxTokenCount

integer

1

Maximální počet tokenů, které se mají vytvořit. Výchozí hodnota je 1.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

ListIndexesResult

Odpověď z požadavku Indexy seznamu. V případě úspěchu zahrnuje úplné definice všech indexů.

Name Typ Description
value

SearchIndex[]

Indexy v Search.

LuceneStandardAnalyzer

Standardní analyzátor Apache Lucene; Skládá se ze standardního tokenizátoru, filtru malých písmen a filtru zastavení.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.StandardAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

stopwords

string[]

Seznam dorazů.

LuceneStandardTokenizer

Rozdělí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

LuceneStandardTokenizerV2

Zalomí text podle pravidel segmentace textu v kódování Unicode. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.StandardTokenizerV2

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

MagnitudeScoringFunction

Definuje funkci, která zvyšuje skóre na základě velikosti číselného pole.

Name Typ Description
boost

number

Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole použitého jako vstup pro hodnoticí funkci.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární.

magnitude

MagnitudeScoringParameters

Hodnoty parametrů pro funkci bodování velikosti.

type string:

magnitude

Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé.

MagnitudeScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování velikosti.

Name Typ Description
boostingRangeEnd

number

Hodnota pole, kterým zvýšení končí.

boostingRangeStart

number

Hodnota pole, od kterého zvýšení začíná.

constantBoostBeyondRange

boolean

Hodnota označující, zda se má použít konstantní zvýšení pro hodnoty pole nad rámec koncové hodnoty rozsahu; výchozí hodnota je false.

MappingCharFilter

Filtr znaků, který používá mapování definovaná pomocí možnosti mapování. Porovnávání je greedy (nejdelší porovnávání vzorů v daném bodě vyhrává). Nahrazení může být prázdný řetězec. Tento filtr znaků se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.MappingCharFilter

Fragment identifikátoru URI určující typ filtru znaků.

mappings

string[]

Seznam mapování v následujícím formátu: "a=>b" (všechny výskyty znaku "a" budou nahrazeny znakem "b").

name

string

Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

MicrosoftLanguageStemmingTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk a zmenšuje slova na jejich základní tvary.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageStemmingTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

isSearchTokenizer

boolean

False

Hodnota označující způsob použití tokenizátoru. Nastavte na true, pokud se použije jako tokenizátor vyhledávání, na hodnotu false, pokud se použije jako tokenizátor indexování. Výchozí hodnota je false.

language

MicrosoftStemmingTokenizerLanguage

Jazyk, který se má použít. Výchozí hodnota je angličtina.

maxTokenLength

integer

255

Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 znaků a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

MicrosoftLanguageTokenizer

Rozdělí text pomocí pravidel specifických pro jazyk.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.MicrosoftLanguageTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

isSearchTokenizer

boolean

False

Hodnota označující způsob použití tokenizátoru. Nastavte na true, pokud se použije jako tokenizátor vyhledávání, na hodnotu false, pokud se použije jako tokenizátor indexování. Výchozí hodnota je false.

language

MicrosoftTokenizerLanguage

Jazyk, který se má použít. Výchozí hodnota je angličtina.

maxTokenLength

integer

255

Maximální délka tokenu. Tokeny delší než maximální délka se rozdělí. Maximální délka tokenu, který lze použít, je 300 znaků. Tokeny delší než 300 znaků se nejprve rozdělí na tokeny o délce 300 znaků a pak se každý z těchto tokenů rozdělí na základě nastavené maximální délky tokenu. Výchozí hodnota je 255.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

MicrosoftStemmingTokenizerLanguage

Seznamy jazyky podporované tokenizátorem jazyka od Microsoftu.

Name Typ Description
arabic

string

Vybere tokenizátor microsoftu pro arabštinu.

bangla

string

Vybere tokenizátor microsoftu stemming pro Bangla.

bulgarian

string

Vybere tokenizátor microsoftu stemming pro bulharštinu.

catalan

string

Vybere tokenizátor od Microsoftu pro katalánštinu.

croatian

string

Vybere tokenizátor microsoftu stemming pro chorvatštinu.

czech

string

Vybere tokenizátor pro češtinu od Microsoftu.

danish

string

Vybere tokenizátor microsoftu stemming pro dánštinu.

dutch

string

Vybere tokenizátor microsoftu stemming pro nizozemštinu.

english

string

Vybere tokenizátor microsoftu pro angličtinu.

estonian

string

Vybere tokenizátor microsoftu stemming pro estonštinu.

finnish

string

Vybere tokenizátor microsoftu stemming pro finštinu.

french

string

Vybere tokenizátor microsoftu pro francouzštinu.

german

string

Vybere tokenizátor microsoftu stemming pro němčinu.

greek

string

Vybere tokenizátor microsoftu stemming pro řečtinu.

gujarati

string

Vybere tokenizátor microsoftu stemming pro Gujarati.

hebrew

string

Vybere tokenizátor od Microsoftu pro hebrejštinu.

hindi

string

Vybere tokenizátor microsoftu stemming pro hindštinu.

hungarian

string

Vybere tokenizátor microsoftu stemming pro maďarštinu.

icelandic

string

Vybere tokenizátor od Microsoftu pro islandštinu.

indonesian

string

Vybere tokenizátor microsoftu stemming pro indonéštinu.

italian

string

Vybere tokenizátor microsoftu pro italštinu.

kannada

string

Vybere tokenizátor microsoftu stemming pro kannadu.

latvian

string

Vybere tokenizátor microsoftu stemming pro lotyštinu.

lithuanian

string

Vybere tokenizátor microsoftu stemming pro litevštinu.

malay

string

Vybere tokenizátor microsoftu stemming pro malajský.

malayalam

string

Vybere tokenizátor microsoftu stemming pro Malayalam.

marathi

string

Vybere tokenizátor microsoftu stemming pro Marathi.

norwegianBokmaal

string

Vybere tokenizátor microsoftu stemming pro norštinu (Bokmål).

polish

string

Vybere tokenizátor microsoftu stemming pro polštinu.

portuguese

string

Vybere tokenizátor microsoftu stemming pro portugalštinu.

portugueseBrazilian

string

Vybere tokenizátor microsoftu stemming pro portugalštinu (Brazílie).

punjabi

string

Vybere tokenizátor microsoftu stemming pro Padžábština.

romanian

string

Vybere tokenizátor microsoftu stemming pro rumunštinu.

russian

string

Vybere tokenizátor microsoftu pro ruštinu.

serbianCyrillic

string

Vybere tokenizátor od Microsoftu pro srbštinu (cyrilice).

serbianLatin

string

Vybere tokenizátor microsoftu stemming pro srbštinu (latinka).

slovak

string

Vybere tokenizátor microsoftu stemming pro slovenštinu.

slovenian

string

Vybere tokenizátor microsoftu stemming pro slovinštinu.

spanish

string

Vybere tokenizátor microsoftu pro španělštinu.

swedish

string

Vybere tokenizátor microsoftu stemming pro švédštinu.

tamil

string

Vybere tokenizátor microsoftu stemming pro tamilštinu.

telugu

string

Vybere tokenizátor microsoftu stemming pro Telugu.

turkish

string

Vybere tokenizátor microsoftu stemming pro turečtinu.

ukrainian

string

Vybere tokenizátor microsoftu stemming pro ukrajinštinu.

urdu

string

Vybere tokenizátor microsoftu stemming pro Urdu.

MicrosoftTokenizerLanguage

Seznamy jazyky podporované tokenizátorem jazyka od Microsoftu.

Name Typ Description
bangla

string

Vybere tokenizátor Microsoftu pro Bengálu.

bulgarian

string

Vybere tokenizátor Microsoftu pro bulharštinu.

catalan

string

Vybere tokenizátor Microsoftu pro katalánštinu.

chineseSimplified

string

Vybere tokenizátor Microsoftu pro čínštinu (zjednodušenou).

chineseTraditional

string

Vybere tokenizátor Microsoftu pro čínštinu (tradiční).

croatian

string

Vybere tokenizátor Microsoftu pro chorvatštinu.

czech

string

Vybere tokenizátor Microsoftu pro češtinu.

danish

string

Vybere tokenizátor Microsoftu pro dánštinu.

dutch

string

Vybere tokenizátor Microsoftu pro nizozemštinu.

english

string

Vybere tokenizátor Microsoftu pro angličtinu.

french

string

Vybere tokenizátor Microsoftu pro francouzštinu.

german

string

Vybere tokenizátor Microsoftu pro němčinu.

greek

string

Vybere tokenizátor Microsoftu pro řečtinu.

gujarati

string

Vybere tokenizátor Microsoftu pro Gujarati.

hindi

string

Vybere tokenizátor Microsoftu pro hindštinu.

icelandic

string

Vybere tokenizátor Microsoftu pro islandštinu.

indonesian

string

Vybere tokenizátor Microsoftu pro indonéštinu.

italian

string

Vybere tokenizátor Microsoftu pro italštinu.

japanese

string

Vybere tokenizátor Microsoftu pro japonštinu.

kannada

string

Vybere tokenizátor Microsoftu pro kannadu.

korean

string

Vybere tokenizátor Microsoftu pro korejštinu.

malay

string

Vybere tokenizátor Microsoftu pro Malajsku.

malayalam

string

Vybere tokenizátor Microsoftu pro Malayalam.

marathi

string

Vybere tokenizátor Microsoftu pro Marathi.

norwegianBokmaal

string

Vybere tokenizátor Microsoftu pro norštinu (Bokmål).

polish

string

Vybere tokenizátor Microsoftu pro polštinu.

portuguese

string

Vybere tokenizátor Microsoftu pro portugalštinu.

portugueseBrazilian

string

Vybere tokenizátor Microsoftu pro portugalštinu (Brazílie).

punjabi

string

Vybere tokenizátor Microsoftu pro Padžábština.

romanian

string

Vybere tokenizátor Microsoftu pro rumunštinu.

russian

string

Vybere tokenizátor Microsoftu pro ruštinu.

serbianCyrillic

string

Vybere tokenizátor Microsoftu pro srbštinu (cyrilice).

serbianLatin

string

Vybere tokenizátor Microsoftu pro srbštinu (latinka).

slovenian

string

Vybere tokenizátor Microsoftu pro slovinštinu.

spanish

string

Vybere tokenizátor Microsoftu pro španělštinu.

swedish

string

Vybere tokenizátor Microsoftu pro švédštinu.

tamil

string

Vybere tokenizátor Microsoftu pro tamilštinu.

telugu

string

Vybere tokenizátor Microsoftu pro Telugu.

thai

string

Vybere tokenizátor Microsoftu pro thajštinu.

ukrainian

string

Vybere tokenizátor Microsoftu pro ukrajinštinu.

urdu

string

Vybere tokenizátor Microsoftu pro Urdu.

vietnamese

string

Vybere tokenizátor Microsoftu pro vietnamštinu.

NGramTokenFilter

Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

NGramTokenFilterV2

Vygeneruje n-gramů dané velikosti. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenFilterV2

Fragment identifikátoru URI určující typ filtru tokenu.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

NGramTokenizer

Tokenizuje vstup na n-gramy dané velikosti. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.NGramTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxGram

integer

2

Maximální délka n-gramu. Výchozí hodnota je 2. Maximum je 300.

minGram

integer

1

Minimální délka n-gramu. Výchozí hodnota je 1. Maximum je 300. Musí být menší než hodnota maxGram.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

tokenChars

TokenCharacterKind[]

Třídy znaků, které se mají uchovávat v tokenech.

PathHierarchyTokenizerV2

Tokenizátor pro hierarchie podobné cestám. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.PathHierarchyTokenizerV2

Fragment identifikátoru URI určující typ tokenizátoru.

delimiter

string

/

Znak oddělovače, který se má použít. Výchozí hodnota je "/".

maxTokenLength

integer

300

Maximální délka tokenu. Výchozí hodnota a maximum je 300.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

replacement

string

/

Hodnota, která v případě, že je nastavená, nahradí znak oddělovače. Výchozí hodnota je "/".

reverse

boolean

False

Hodnota označující, jestli se mají generovat tokeny v obráceném pořadí. Výchozí hodnota je false.

skip

integer

0

Počet počátečních tokenů, které se mají přeskočit. Výchozí hodnota je 0.

PatternAnalyzer

Pružně rozděluje text na termíny pomocí vzoru regulárního výrazu. Tento analyzátor je implementovaný pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.PatternAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

flags

RegexFlags

Příznaky regulárních výrazů.

lowercase

boolean

True

Hodnota označující, zda mají být termíny malé. Platí výchozí hodnota.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

pattern

string

\W+

Vzor regulárního výrazu, který odpovídá oddělovačům tokenů. Výchozí je výraz, který odpovídá jednomu nebo více neslovným znakům.

stopwords

string[]

Seznam dorazů.

PatternCaptureTokenFilter

Používá regulární výrazy Jazyka Java k vygenerování více tokenů – jeden pro každou skupinu zachycení v jednom nebo více vzorech. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.PatternCaptureTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

patterns

string[]

Seznam vzorů, které se mají s jednotlivými tokeny shodovat.

preserveOriginal

boolean

True

Hodnota označující, jestli se má vrátit původní token, i když se některý ze vzorů shoduje. Platí výchozí hodnota.

PatternReplaceCharFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr znaků se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceCharFilter

Fragment identifikátoru URI určující typ filtru znaků.

name

string

Název filtru znaků. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

pattern

string

Vzor regulárního výrazu.

replacement

string

Náhradní text.

PatternReplaceTokenFilter

Filtr znaků, který nahradí znaky ve vstupním řetězci. Používá regulární výraz k identifikaci sekvencí znaků, které se mají zachovat, a vzor nahrazení k identifikaci znaků, které se mají nahradit. Například při použití vstupního textu "aa bb aa bb", vzoru "(aa)\s+(bb)" a nahrazení "$1#$2" by výsledek byl "aa#bb aa#bb". Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.PatternReplaceTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

pattern

string

Vzor regulárního výrazu.

replacement

string

Náhradní text.

PatternTokenizer

Tokenizátor, který používá porovnávání vzorů regulárních výrazů k vytvoření jedinečných tokenů. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.PatternTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

flags

RegexFlags

Příznaky regulárních výrazů.

group

integer

-1

Pořadové číslo od nuly odpovídající skupiny ve vzorci regulárního výrazu, které se mají extrahovat do tokenů. Pokud chcete použít celý vzor k rozdělení vstupu na tokeny, bez ohledu na odpovídající skupiny, použijte -1. Výchozí hodnota je -1.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

pattern

string

\W+

Vzor regulárního výrazu pro shodu s oddělovači tokenů. Výchozí hodnota je výraz, který odpovídá jednomu nebo více neslovným znakům.

PhoneticEncoder

Určuje typ fonetického kodéru, který se má použít s phoneticTokenFilter.

Name Typ Description
beiderMorse

string

Zakóduje token do Beider-Morse hodnoty.

caverphone1

string

Zakóduje token do hodnoty Caverphone 1.0.

caverphone2

string

Zakóduje token do hodnoty Caverphone 2.0.

cologne

string

Zakóduje token do fonetické hodnoty Kolín nad Rýnem.

doubleMetaphone

string

Zakóduje token do hodnoty dvojitého metafonu.

haasePhonetik

string

Kóduje token pomocí zpřesnění algoritmu Kölner Phonetik od společnosti Haase.

koelnerPhonetik

string

Kóduje token pomocí algoritmu Kölner Phonetik.

metaphone

string

Zakóduje token do hodnoty metafonu.

nysiis

string

Zakóduje token do hodnoty NYSIIS.

refinedSoundex

string

Zakóduje token do hodnoty Refined Soundex.

soundex

string

Zakóduje token do hodnoty Soundex.

PhoneticTokenFilter

Vytvoření tokenů pro fonetické shody Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.PhoneticTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

encoder

PhoneticEncoder

metaphone

Fonetický kodér, který se má použít. Výchozí hodnota je "metafon".

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

replace

boolean

True

Hodnota označující, jestli mají kódované tokeny nahradit původní tokeny. Pokud je false, kódované tokeny se přidají jako synonyma. Platí výchozí hodnota.

PrioritizedFields

Popisuje pole nadpisu, obsahu a klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi.

Name Typ Description
prioritizedContentFields

SemanticField[]

Definuje pole obsahu, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat text ve formě přirozeného jazyka. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý.

prioritizedKeywordsFields

SemanticField[]

Definuje pole klíčových slov, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pro nejlepší výsledek by vybraná pole měla obsahovat seznam klíčových slov. Pořadí polí v poli představuje jejich prioritu. Pole s nižší prioritou se můžou zkrátit, pokud je obsah dlouhý.

titleField

SemanticField

Definuje pole názvu, které se má použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Pokud v indexu nemáte pole s názvem, nechte toto pole prázdné.

RegexFlags

Definuje příznaky, které lze kombinovat a řídit způsob použití regulárních výrazů v analyzátoru vzorů a tokenizátoru vzorů.

Name Typ Description
CANON_EQ

string

Umožňuje kanonickou ekvivalenci.

CASE_INSENSITIVE

string

Umožňuje rozlišovat malá a velká písmena.

COMMENTS

string

Povoluje prázdné znaky a komentáře ve vzoru.

DOTALL

string

Povolí režim dotall.

LITERAL

string

Povolí literálovou analýzu vzoru.

MULTILINE

string

Povolí víceřádkový režim.

UNICODE_CASE

string

Umožňuje skládání velkých a malých písmen s kódováním Unicode.

UNIX_LINES

string

Povolí unixový režim řádků.

ScoringFunctionAggregation

Definuje agregační funkci, která se používá ke kombinování výsledků všech hodnoticích funkcí v bodovacím profilu.

Name Typ Description
average

string

Zvyšte skóre o průměr všech výsledků bodovací funkce.

firstMatching

string

Zvyšte skóre pomocí první použitelné bodovací funkce v bodovacím profilu.

maximum

string

Zvyšte skóre o maximum ze všech výsledků bodovací funkce.

minimum

string

Zvyšte skóre o minimum ze všech výsledků bodovací funkce.

sum

string

Zvyšte skóre o součet všech výsledků bodovací funkce.

ScoringFunctionInterpolation

Definuje funkci, která se používá k interpolaci zvýšení skóre napříč celou řadou dokumentů.

Name Typ Description
constant

string

Zvyšuje skóre konstantním faktorem.

linear

string

Zvyšuje skóre o lineárně se zmenšující hodnotu. Toto je výchozí interpolace pro hodnoticí funkce.

logarithmic

string

Zvýší skóre o hodnotu, která logaritmicky snižuje. Zvýšení se rychle snižuje pro vyšší skóre a pomaleji při poklesu skóre. Tato možnost interpolace není povolená ve funkcích vyhodnocování značek.

quadratic

string

Zvyšuje skóre o hodnotu, která se kvadraticky snižuje. Zvýšení se pomalu snižuje pro vyšší skóre a rychleji, když se skóre snižují. Tato možnost interpolace není povolená ve funkcích vyhodnocování značek.

ScoringProfile

Definuje parametry pro index vyhledávání, které ovlivňují bodování ve vyhledávacích dotazech.

Name Typ Description
functionAggregation

ScoringFunctionAggregation

Hodnota označující, jak se mají kombinovat výsledky jednotlivých hodnoticích funkcí. Výchozí hodnota je Součet. Ignorováno, pokud neexistují žádné hodnoticí funkce.

functions ScoringFunction[]:

Kolekce funkcí, které ovlivňují bodování dokumentů.

name

string

Název profilu bodování.

text

TextWeights

Parametry, které zvyšují hodnocení na základě shody textu v určitých polích indexu.

SearchError

Popisuje chybový stav rozhraní API.

Name Typ Description
code

string

Jeden ze serverem definované sady kódů chyb.

details

SearchError[]

Pole podrobností o konkrétních chybách, které vedly k této nahlášené chybě.

message

string

Lidsky čitelná reprezentace chyby.

SearchField

Představuje pole v definici indexu, která popisuje název, datový typ a chování hledání pole.

Name Typ Description
analyzer

LexicalAnalyzerName

Název analyzátoru, který se má použít pro pole. Tuto možnost lze použít pouze u prohledávatelných polí a nelze ji nastavit společně s searchAnalyzerem ani indexAnalyzerem. Jakmile je analyzátor zvolen, nelze ho pro pole změnit. U složitých polí musí být hodnota null.

dimensions

integer

Dimenze vektorového pole.

facetable

boolean

Hodnota označující, zda se má povolit odkaz na pole v dotazech omezující vlastnosti. Obvykle se používá v prezentaci výsledků hledání, která zahrnuje počet přístupů podle kategorie (například hledání digitálních fotoaparátů a zobrazení hitů podle značky, podle megapixelů, podle ceny atd.). Tato vlastnost musí mít hodnotu null pro složitá pole. Pole typu Edm.GeographyPoint nebo Collection(Edm.GeographyPoint) nemohou být facetable. Výchozí hodnota platí pro všechna ostatní jednoduchá pole.

fields

SearchField[]

Seznam dílčích polí, pokud se jedná o pole typu Edm.ComplexType nebo Collection(Edm.ComplexType). Pro jednoduchá pole musí být hodnota null nebo prázdná.

filterable

boolean

Hodnota označující, zda se má povolit odkaz na pole v $filter dotazech. filtrovatelné se liší od prohledávatelného v tom, jak se zpracovávají řetězce. Pole typu Edm.String nebo Collection(Edm.String), která lze filtrovat, neprocházejí dělením slov, takže porovnání jsou určena pouze pro přesné shody. Pokud například nastavíte takové pole f na "slunečný den", $filter=f eq 'sunny' nenajde žádné shody, ale $filter=f eq 'slunečný den' ano. Tato vlastnost musí mít hodnotu null pro složitá pole. Výchozí hodnota je true pro jednoduchá pole a hodnota null pro složitá pole.

indexAnalyzer

LexicalAnalyzerName

Název analyzátoru použitého v době indexování pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s searchAnalyzer a nelze jej nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzer. Jakmile je analyzátor zvolen, nelze ho pro pole změnit. U složitých polí musí být hodnota null.

key

boolean

Hodnota označující, zda pole jedinečně identifikuje dokumenty v indexu. Jako klíčové pole musí být zvoleno přesně jedno pole nejvyšší úrovně v každém indexu a musí být typu Edm.String. Klíčová pole se dají použít k přímému vyhledávání dokumentů a aktualizaci nebo odstranění konkrétních dokumentů. Výchozí hodnota je nepravda pro jednoduchá pole a hodnota null pro složitá pole.

name

string

Název pole, který musí být jedinečný v kolekci polí indexu nebo nadřazeného pole.

retrievable

boolean

Hodnota označující, zda lze pole vrátit ve výsledku hledání. Tuto možnost můžete zakázat, pokud chcete použít pole (například okraj) jako filtr, řazení nebo bodovací mechanismus, ale nechcete, aby bylo pole viditelné pro koncového uživatele. Tato vlastnost musí být true pro klíčová pole a pro složitá pole musí být null. Tuto vlastnost je možné změnit u existujících polí. Povolení této vlastnosti nezpůsobí zvýšení požadavků na úložiště indexů. Výchozí hodnota je true pro jednoduchá pole a hodnota null pro složitá pole.

searchAnalyzer

LexicalAnalyzerName

Název analyzátoru použitého při hledání pole. Tuto možnost lze použít pouze u prohledávatelných polí. Musí být nastaven společně s indexAnalyzer a nelze ho nastavit společně s možností analyzátoru. Tuto vlastnost nelze nastavit na název analyzátoru jazyka; Pokud potřebujete analyzátor jazyka, použijte místo toho vlastnost analyzer. Tento analyzátor je možné aktualizovat u existujícího pole. U složitých polí musí být hodnota null.

searchable

boolean

Hodnota označující, jestli je pole fulltextové prohledávatelné. To znamená, že během indexování projde analýzou, jako je dělení slov. Pokud nastavíte prohledávatelné pole na hodnotu jako „slunečný den“, interně se rozdělí na jednotlivé tokeny „slunečný“ a „den“. To umožňuje fulltextové vyhledávání těchto termínů. Pole typu Edm.String nebo Collection(Edm.String) se ve výchozím nastavení prohledávají. Tato vlastnost musí mít hodnotu false pro jednoduchá pole jiných datových typů, než jsou řetězce, a pro složitá pole musí být null. Poznámka: Prohledávatelná pole spotřebovávají v indexu další tokenizované verze hodnoty pole pro fulltextové vyhledávání. Pokud chcete ušetřit místo v indexu a nepotřebujete, aby se pole zahrnulo do hledání, nastavte prohledávatelné na false.

sortable

boolean

Hodnota označující, zda má být na pole odkazováno ve výrazech $orderby. Ve výchozím nastavení vyhledávací web seřadí výsledky podle skóre, ale v mnoha prostředích budou uživatelé chtít řadit podle polí v dokumentech. Jednoduché pole lze řadit pouze v případě, že je jednohodnotové (v oboru nadřazeného dokumentu má jednu hodnotu). Jednoduchá pole kolekce nelze seřadit, protože jsou vícehodnotová. Jednoduchá dílčí pole složitých kolekcí jsou také vícehodnotová, a proto je nelze seřadit. To platí bez ohledu na to, jestli se jedná o bezprostředně nadřazené pole nebo nadřazené pole, což je složitá kolekce. Složitá pole nelze seřadit a vlastnost řazení musí mít pro taková pole hodnotu null. Výchozí hodnota pro seřaditelná pole je true pro jednoduchá pole s jednou hodnotou, false pro jednoduchá pole s více hodnotami a hodnota null pro složitá pole.

synonymMaps

string[]

Seznam názvů map synonym, které chcete přidružit k tomuto poli. Tuto možnost lze použít pouze u prohledávatelných polí. V současné době je podporováno pouze jedno mapování synonym pro každé pole. Přiřazení mapování synonym k poli zajistí, že termíny dotazu, které cílí na toto pole, se v době dotazu rozbalí pomocí pravidel v mapě synonym. Tento atribut lze změnit u existujících polí. Musí mít hodnotu null nebo prázdnou kolekci pro složitá pole.

type

SearchFieldDataType

Datový typ pole.

vectorSearchProfile

string

Název vektorového vyhledávacího profilu, který určuje algoritmus, který se má použít při prohledávání vektorového pole.

SearchFieldDataType

Definuje datový typ pole ve vyhledávacím indexu.

Name Typ Description
Edm.Boolean

string

Označuje, že pole obsahuje logickou hodnotu (true nebo false).

Edm.ComplexType

string

Označuje, že pole obsahuje jeden nebo více složitých objektů, které mají dílčí pole jiných typů.

Edm.DateTimeOffset

string

Označuje, že pole obsahuje hodnotu data a času, včetně informací o časovém pásmu.

Edm.Double

string

Označuje, že pole obsahuje číslo IEEE s plovoucí desetinou čárkou s dvojitou přesností.

Edm.GeographyPoint

string

Označuje, že pole obsahuje geografické umístění z hlediska zeměpisné délky a šířky.

Edm.Int32

string

Označuje, že pole obsahuje celé číslo se 32bitovým znaménkem.

Edm.Int64

string

Označuje, že pole obsahuje celé číslo se 64bitovým znaménkem.

Edm.Single

string

Označuje, že pole obsahuje číslo s plovoucí desetinou čárkou s jednou přesností. To je platné pouze při použití s Collection(Edm.Single).

Edm.String

string

Označuje, že pole obsahuje řetězec.

SearchIndex

Představuje definici indexu vyhledávání, která popisuje pole a chování vyhledávání indexu.

Name Typ Description
@odata.etag

string

Značka ETag indexu.

analyzers LexicalAnalyzer[]:

Analyzátory indexu.

charFilters CharFilter[]:

Znak filtruje index.

corsOptions

CorsOptions

Možnosti řízení sdílení prostředků mezi zdroji (CORS) pro index

defaultScoringProfile

string

Název profilu hodnocení, který se má použít, pokud v dotazu není zadán žádný. Pokud tato vlastnost není nastavená a v dotazu není zadaný žádný profil bodování, použije se výchozí bodování (tf-idf).

encryptionKey

SearchResourceEncryptionKey

Popis šifrovacího klíče, který vytvoříte v Azure Key Vault. Tento klíč slouží k zajištění další úrovně šifrování neaktivních uložených dat, pokud chcete mít plnou jistotu, že nikdo, ani Microsoft, nemůže data dešifrovat. Jakmile data zašifrujete, zůstanou vždy zašifrovaná. Vyhledávací služba bude ignorovat pokusy o nastavení této vlastnosti na hodnotu null. Pokud chcete šifrovací klíč obměnit, můžete tuto vlastnost podle potřeby změnit. Na vaše data to nebude mít vliv. Šifrování pomocí klíčů spravovaných zákazníkem není k dispozici pro bezplatné vyhledávací služby a je k dispozici pouze pro placené služby vytvořené 1. ledna 2019 nebo později.

fields

SearchField[]

Pole indexu.

name

string

Název indexu.

scoringProfiles

ScoringProfile[]

Profily bodování indexu

semantic

SemanticSettings

Definuje parametry pro index vyhledávání, které ovlivňují sémantické funkce.

similarity Similarity:

Typ algoritmu podobnosti, který se má použít při vyhodnocování a řazení dokumentů odpovídajících vyhledávacímu dotazu. Algoritmus podobnosti lze definovat pouze při vytváření indexu a nelze ho změnit u existujících indexů. Pokud null, použije se algoritmus ClassicSimilarity.

suggesters

Suggester[]

Sugestivníci indexu.

tokenFilters TokenFilter[]:

Token filtruje index.

tokenizers LexicalTokenizer[]:

Tokenizátory indexu.

vectorSearch

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

SearchResourceEncryptionKey

Šifrovací klíč spravovaný zákazníkem v Azure Key Vault. Klíče, které vytvoříte a spravujete, můžete použít k šifrování nebo dešifrování neaktivních uložených dat ve vyhledávací službě, jako jsou indexy a mapy synonym.

Name Typ Description
accessCredentials

AzureActiveDirectoryApplicationCredentials

Volitelné přihlašovací údaje Azure Active Directory používané pro přístup k Key Vault Azure. Nevyžaduje se, pokud místo toho použijete spravovanou identitu.

keyVaultKeyName

string

Název klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat.

keyVaultKeyVersion

string

Verze klíče Azure Key Vault, který se má použít k šifrování neaktivních uložených dat.

keyVaultUri

string

Identifikátor URI Key Vault Azure, označovaný také jako název DNS, který obsahuje klíč, který se má použít k šifrování neaktivních uložených dat. Příkladem identifikátoru URI může být https://my-keyvault-name.vault.azure.net.

SemanticConfiguration

Definuje konkrétní konfiguraci, která se má použít v kontextu sémantických schopností.

Name Typ Description
name

string

Název sémantické konfigurace.

prioritizedFields

PrioritizedFields

Popisuje pole názvu, obsahu a klíčového slova, která se mají použít pro sémantické řazení, titulky, zvýraznění a odpovědi. Je třeba nastavit alespoň jednu ze tří dílčích vlastností (titleField, priorityizedKeywordsFields a priorityizedContentFields).

SemanticField

Pole, které se používá jako součást sémantické konfigurace.

Name Typ Description
fieldName

string

SemanticSettings

Definuje parametry pro index vyhledávání, které ovlivňují sémantické funkce.

Name Typ Description
configurations

SemanticConfiguration[]

Sémantické konfigurace indexu.

defaultConfiguration

string

Umožňuje nastavit název výchozí sémantické konfigurace v indexu, takže je volitelné ji předávat jako parametr dotazu pokaždé.

ShingleTokenFilter

Vytvoří kombinace tokenů jako jeden token. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.ShingleTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

filterToken

string

_

Řetězec, který se má vložit pro každou pozici, na které není token. Výchozí hodnota je podtržítko ("_").

maxShingleSize

integer

2

Maximální velikost šindele Výchozí a minimální hodnota je 2.

minShingleSize

integer

2

Minimální velikost šindele Výchozí a minimální hodnota je 2. Musí být menší než hodnota maxShingleSize.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

outputUnigrams

boolean

True

Hodnota označující, jestli bude výstupní datový proud obsahovat vstupní tokeny (unigramy) i šindele. Platí výchozí hodnota.

outputUnigramsIfNoShingles

boolean

False

Hodnota označující, zda se mají vydělovat unigramy v době, kdy nejsou k dispozici žádné šindele. Tato vlastnost má přednost, pokud outputUnigrams je nastavena na false. Výchozí hodnota je false.

tokenSeparator

string

Řetězec, který se má použít při spojování sousedních tokenů za účelem vytvoření šindele. Výchozí hodnota je jedna mezera (" ").

SnowballTokenFilter

Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.SnowballTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

language

SnowballTokenFilterLanguage

Jazyk, který se má použít.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

SnowballTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenu Snowball.

Name Typ Description
armenian

string

Vybere tokenizér lucene snowball pro arménštinu.

basque

string

Vybere tokenizér lucene Snowball stemming pro Basque.

catalan

string

Vybere tokenizátor lucene Snowball pro katalánštinu.

danish

string

Vybere tokenizátor lucene Snowball pro dánštinu.

dutch

string

Vybere tokenizátor lucene Snowball pro holandštinu.

english

string

Vybere tokenizátor lucene Snowball pro angličtinu.

finnish

string

Vybere tokenizátor lucene Snowball pro finštinu.

french

string

Vybere tokenizátor lucene Snowball pro francouzštinu.

german

string

Vybere tokenizátor lucene Snowball pro němčinu.

german2

string

Vybere tokenizátor lucene Snowball stemming, který používá algoritmus německé varianty.

hungarian

string

Vybere tokenizátor lucene Snowball pro maďarštinu.

italian

string

Vybere tokenizátor lucene Snowball pro italštinu.

kp

string

Vybere tokenizátor stopky Lucene Snowball pro holandštinu, který používá algoritmus Kraaij-Pohlmann stemming.

lovins

string

Vybere tokenizátor stopky Lucene Snowball pro angličtinu, který používá algoritmus lovins stemming.

norwegian

string

Vybere tokenizátor lucene Snowball pro norštinu.

porter

string

Vybere tokenizátor lucene Snowball stemming pro angličtinu, který používá algoritmus stemming Porter.

portuguese

string

Vybere tokenizér lucene Snowball pro portugalštinu.

romanian

string

Vybere tokenizátor lucene Snowball pro rumunštinu.

russian

string

Vybere tokenizátor stopky Lucene Snowball pro ruštinu.

spanish

string

Vybere tokenizátor lucene Snowball pro španělštinu.

swedish

string

Vybere tokenizér lucene snowball pro švédštinu.

turkish

string

Vybere tokenizér lucene Snowball stemming pro turečtinu.

StemmerOverrideTokenFilter

Poskytuje možnost přepsat jiné filtry stemmingu pomocí vlastního slovníkového stemmingu. Všechny termíny se slovníkovou stopou budou označeny jako klíčová slova, takže nebudou označeny stemmers v řetězci. Musí být umístěn před jakékoli filtry stopky. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerOverrideTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

rules

string[]

Seznam pravidel stemming v následujícím formátu: "word => stem", například: "ran => run".

StemmerTokenFilter

Filtr stemmingu pro konkrétní jazyk. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StemmerTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

language

StemmerTokenFilterLanguage

Jazyk, který se má použít.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

StemmerTokenFilterLanguage

Jazyk, který se má použít pro filtr tokenů kmene.

Name Typ Description
arabic

string

Vybere tokenizátor lucene stemming pro arabštinu.

armenian

string

Vybere tokenizátor lucene stemming pro arménštinu.

basque

string

Vybere tokenizátor lucene stemming pro Basque.

brazilian

string

Vybere tokenizátor lucene stemming pro portugalštinu (Brazílie).

bulgarian

string

Vybere tokenizátor lucene stemming pro bulharštinu.

catalan

string

Vybere tokenizátor lucene stemming pro katalánštinu.

czech

string

Vybere tokenizátor Lucene stemming pro češtinu.

danish

string

Vybere tokenizátor lucene stemming pro dánštinu.

dutch

string

Vybere tokenizátor lucene stemming pro holandštinu.

dutchKp

string

Vybere tokenizátor lucene stemming pro holandštinu, který používá algoritmus Kraaij-Pohlmann stemming.

english

string

Vybere tokenizátor lucene stemming pro angličtinu.

finnish

string

Vybere tokenizátor lucene stemming pro finštinu.

french

string

Vybere tokenizátor lucene stemming pro francouzštinu.

galician

string

Vybere tokenizátor lucene stemming pro galicijštinu.

german

string

Vybere tokenizátor lucene stemming pro němčinu.

german2

string

Vybere tokenizátor lucene stemming, který používá algoritmus německé varianty.

greek

string

Vybere tokenizátor lucene stemming pro řečtinu.

hindi

string

Vybere tokenizátor lucene stemming pro hindštinu.

hungarian

string

Vybere tokenizátor lucene stemming pro maďarštinu.

indonesian

string

Vybere tokenizátor lucene stemming pro indonéštinu.

irish

string

Vybere tokenizátor lucene stemming pro irštinu.

italian

string

Vybere tokenizátor lucene stemming pro italštinu.

latvian

string

Vybere tokenizátor lucene stemming pro lotyštinu.

lightEnglish

string

Vybere tokenizátor lucene stemming pro angličtinu, který dělá světlo stemming.

lightFinnish

string

Vybere tokenizátor lucene stemming pro finštinu, který dělá světlo stemming.

lightFrench

string

Vybere tokenizátor lucene stemming pro francouzštinu, který dělá světlo stemming.

lightGerman

string

Vybere tokenizátor lucene stemming pro němčinu, který dělá světlo stemming.

lightHungarian

string

Vybere tokenizátor lucene stemming pro maďarštinu, který dělá světlo stemming.

lightItalian

string

Vybere tokenizátor lucene stemming pro italštinu, který dělá světlo stemming.

lightNorwegian

string

Vybere tokenizátor lucene stemming pro norštinu (Bokmål), který dělá světlo stemming.

lightNynorsk

string

Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá světlo stemming.

lightPortuguese

string

Vybere tokenizátor lucene stemming pro portugalštinu, který dělá světlo stemming.

lightRussian

string

Vybere tokenizátor lucene stemming pro ruštinu, který dělá světlo stemming.

lightSpanish

string

Vybere tokenizátor lucene stemming pro španělštinu, který dělá světlo stemming.

lightSwedish

string

Vybere tokenizátor lucene stemming pro švédštinu, který dělá světlo stemming.

lovins

string

Vybere tokenizátor lucene stemming pro angličtinu, který používá algoritmus lovins stemming.

minimalEnglish

string

Vybere tokenizátor lucene stemming pro angličtinu, který dělá minimální stemming.

minimalFrench

string

Vybere tokenizér lucene stemming pro francouzštinu, který dělá minimální stemming.

minimalGalician

string

Vybere tokenizátor lucene stemming pro galicijštinu, který dělá minimální stemming.

minimalGerman

string

Vybere tokenizátor lucene stemming pro němčinu, který dělá minimální stemming.

minimalNorwegian

string

Vybere tokenizátor lucene stemming pro norštinu (Bokmål), který dělá minimální stemming.

minimalNynorsk

string

Vybere tokenizátor lucene stemming pro norštinu (Nynorsk), který dělá minimální stemming.

minimalPortuguese

string

Vybere tokenizátor lucene stemming pro portugalštinu, který dělá minimální stemming.

norwegian

string

Vybere tokenizér lucene stemming pro norštinu (Bokmål).

porter2

string

Vybere tokenizátor lucene stemming pro angličtinu, který používá algoritmus kmene Porter2.

portuguese

string

Vybere tokenizátor lucene stemming pro portugalštinu.

portugueseRslp

string

Vybere tokenizátor lucene stemming pro portugalštinu, který používá algoritmus RSLP stemming.

possessiveEnglish

string

Vybere tokenizátor lucene stemming pro angličtinu, který odebere koncové přivlastňovací texty ze slov.

romanian

string

Vybere tokenizátor lucene stemming pro rumunštinu.

russian

string

Vybere tokenizátor lucene stemming pro ruštinu.

sorani

string

Vybere tokenizátor lucene stemming pro Sorani.

spanish

string

Vybere tokenizátor lucene stemming pro španělštinu.

swedish

string

Vybere tokenizátor lucene stemming pro švédštinu.

turkish

string

Vybere tokenizátor lucene stemming pro turečtinu.

StopAnalyzer

Rozdělí text na jiné než písmena; Použije filtry tokenů malých písmen a dorazových slov. Tento analyzátor je implementovaný pomocí Apache Lucene.

Name Typ Description
@odata.type string:

#Microsoft.Azure.Search.StopAnalyzer

Fragment identifikátoru URI určující typ analyzátoru.

name

string

Název analyzátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

stopwords

string[]

Seznam dorazů.

StopwordsList

Identifikuje předdefinovaný seznam zarážek specifických pro konkrétní jazyk.

Name Typ Description
arabic

string

Vybere seznam dorazů pro arabštinu.

armenian

string

Vybere seznam stopword pro arménštinu.

basque

string

Vybere seznam stopword pro baskičtina.

brazilian

string

Vybere seznam stopword pro portugalštinu (Brazílie).

bulgarian

string

Vybere seznam stopword pro bulharštinu.

catalan

string

Vybere seznam stopword pro katalánštinu.

czech

string

Vybere seznam stopwordů pro češtinu.

danish

string

Vybere seznam stopword pro dánštinu.

dutch

string

Vybere seznam stopword pro nizozemštinu.

english

string

Vybere seznam stopword pro angličtinu.

finnish

string

Vybere seznam stopword pro finštinu.

french

string

Vybere seznam stopword pro francouzštinu.

galician

string

Vybere seznam stopwordů pro galicijštinu.

german

string

Vybere seznam stopword pro němčinu.

greek

string

Vybere seznam stopword pro řečtinu.

hindi

string

Vybere seznam dorazů pro hindštinu.

hungarian

string

Vybere seznam stopword pro maďarštinu.

indonesian

string

Vybere seznam stopword pro indonéštinu.

irish

string

Vybere seznam stopword pro irštinu.

italian

string

Vybere seznam stopword pro italštinu.

latvian

string

Vybere seznam stopword pro lotyštinu.

norwegian

string

Vybere seznam stopword pro norštinu.

persian

string

Vybere seznam stopword perštiny.

portuguese

string

Vybere seznam stopword pro portugalštinu.

romanian

string

Vybere seznam stopword pro rumunštinu.

russian

string

Vybere seznam stopword pro ruštinu.

sorani

string

Vybere seznam stopword pro Sorani.

spanish

string

Vybere seznam stopword pro španělštinu.

swedish

string

Vybere seznam stopword pro švédštinu.

thai

string

Vybere seznam stopword pro thajštinu.

turkish

string

Vybere seznam stopword pro turečtinu.

StopwordsTokenFilter

Odebere slova stop z datového proudu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.StopwordsTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

ignoreCase

boolean

False

Hodnota označující, zda se mají ignorovat malá a velká písmena. Pokud má hodnotu true, všechna slova se nejprve převedou na malá písmena. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

removeTrailing

boolean

True

Hodnota označující, jestli se má poslední hledaný termín ignorovat, pokud se jedná o stop slovo. Platí výchozí hodnota.

stopwords

string[]

Seznam stopwords. Tuto vlastnost i vlastnost seznam stopwords nelze nastavit.

stopwordsList

StopwordsList

english

Předdefinovaný seznam stopwords, která se mají použít. Tuto vlastnost i vlastnost stopwords nelze nastavit. Výchozí hodnota je angličtina.

Suggester

Definuje, jak by se rozhraní API Pro návrhy mělo použít na skupinu polí v indexu.

Name Typ Description
name

string

Jméno navrhovatele.

searchMode

SuggesterSearchMode

Hodnota označující možnosti návrhu.

sourceFields

string[]

Seznam názvů polí, na které se navrhovatel vztahuje. Každé pole musí být prohledávatelné.

SuggesterSearchMode

Hodnota označující možnosti návrhu.

Name Typ Description
analyzingInfixMatching

string

Odpovídá po sobě jdoucím celým termínům a předponám v poli. Například v poli Nejrychlejší liška hnědá by se dotazy "rychle" a "nejrychlejší obočí" shodovaly.

SynonymTokenFilter

Odpovídá jednoslovné nebo víceslovné synonymum ve streamu tokenu. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.SynonymTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

expand

boolean

True

Hodnota označující, jestli se všechna slova v seznamu synonym (pokud se nepoužívá zápis => ) se mapují na sebe navzájem. Pokud je hodnota true, všechna slova v seznamu synonym (pokud se nepoužívá zápis => ) se namapují na sebe navzájem. Následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné je ekvivalentem: neuvěřitelné, neuvěřitelné, báječné, úžasné => neuvěřitelné, neuvěřitelné, báječné, úžasné. Pokud je false, následující seznam: neuvěřitelné, neuvěřitelné, báječné, úžasné bude ekvivalentní k: neuvěřitelné, neuvěřitelné, báječné, úžasné => neuvěřitelné. Platí výchozí hodnota.

ignoreCase

boolean

False

Hodnota označující, zda se mají zadat velká a malá písmena pro porovnávání. Výchozí hodnota je false.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

synonyms

string[]

Seznam synonym v jednom ze dvou formátů: 1. neuvěřitelné, neuvěřitelné, báječné => úžasné - všechny termíny na levé straně => symbol budou nahrazeny všemi termíny na pravé straně; 2. neuvěřitelné, neuvěřitelné, báječné, úžasné - čárkami oddělený seznam ekvivalentních slov. Nastavte možnost rozbalení a změňte způsob interpretace tohoto seznamu.

TagScoringFunction

Definuje funkci, která zvyšuje skóre dokumentů pomocí řetězcových hodnot odpovídajících danému seznamu značek.

Name Typ Description
boost

number

Násobitel nezpracovaného skóre. Musí to být kladné číslo, které se nerovná 1,0.

fieldName

string

Název pole použitého jako vstup pro hodnoticí funkci.

interpolation

ScoringFunctionInterpolation

Hodnota označující, jak bude zvýšení interpolováno napříč skóre dokumentu; výchozí hodnota je Lineární.

tag

TagScoringParameters

Hodnoty parametrů pro funkci bodování značek.

type string:

tag

Určuje typ funkce, která se má použít. Mezi platné hodnoty patří velikost, aktuálnost, vzdálenost a značka. Typ funkce musí být malé.

TagScoringParameters

Poskytuje hodnoty parametrů pro funkci bodování značek.

Name Typ Description
tagsParameter

string

Název parametru předaného ve vyhledávacích dotazech k určení seznamu značek, které se mají porovnat s cílovým polem.

TextWeights

Definuje váhy polí indexu, jejichž shody by měly zvýšit skóre ve vyhledávacích dotazech.

Name Typ Description
weights

object

Slovník hmotností pro jednotlivá pole pro zvýšení skóre dokumentu Klíče jsou názvy polí a hodnoty jsou váhy pro každé pole.

TokenCharacterKind

Představuje třídy znaků, se kterými může filtr tokenů pracovat.

Name Typ Description
digit

string

Uchovává číslice v tokenech.

letter

string

Uchovává písmena v tokenech.

punctuation

string

Udržuje interpunkci v tokenech.

symbol

string

Uchovává symboly v tokenech.

whitespace

string

Zachová prázdné znaky v tokenech.

TokenFilterName

Definuje názvy všech filtrů tokenů podporovaných vyhledávacím webem.

Name Typ Description
apostrophe

string

Odstraní všechny znaky za apostrofem (včetně samotného apostrofu). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/tr/ApostropheFilter.html.

arabic_normalization

string

Filtr tokenů, který použije arabský normalizátor k normalizaci ortografie. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ar/ArabicNormalizationFilter.html.

asciifolding

string

Převede abecední, číselné a symbolické znaky Unicode, které nejsou v prvních 127 znacích ASCII (blok Unicode "Základní latinka"), na jejich ekvivalenty ASCII, pokud takové ekvivalenty existují. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html.

cjk_bigram

string

Vytváří bigramy výrazů CJK, které jsou generovány ze standardního tokenizátoru. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKBigramFilter.html.

cjk_width

string

Normalizuje rozdíly šířky CJK. Přeloží fullwidth varianty ASCII do ekvivalentní základní latinky a varianty Katakana s poloviční šířkou do ekvivalentní kany. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/cjk/CJKWidthFilter.html.

classic

string

Odebere anglické přivlastňovací texty a tečky ze zkratek. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicFilter.html.

common_grams

string

Sestavte bigramy pro často se vyskytující termíny při indexování. Jednotlivé termíny se stále indexují, překryvné bigramy. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/commongrams/CommonGramsFilter.html.

edgeNGram_v2

string

Generuje n-gramů dané velikosti počínaje přední nebo zadní částí vstupního tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenFilter.html.

elision

string

Odebere elisions. Například "l'avion" (letadlo) se převede na "avion" (rovina). Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html.

german_normalization

string

Normalizuje německé znaky podle heuristiky algoritmu sněhové koule German2. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/de/GermanNormalizationFilter.html.

hindi_normalization

string

Normalizuje text v hindštině, aby se odstranily některé rozdíly ve variantách pravopisu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/hi/HindiNormalizationFilter.html.

indic_normalization

string

Normalizuje reprezentaci textu v kódu Unicode v indických jazycích. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/in/IndicNormalizationFilter.html.

keyword_repeat

string

Vygeneruje každý příchozí token dvakrát, jednou jako klíčové slovo a jednou jako jiné. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/KeywordRepeatFilter.html.

kstem

string

Vysoce výkonný filtr kstem pro angličtinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/en/KStemFilter.html.

length

string

Odebere slova, která jsou příliš dlouhá nebo příliš krátká. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LengthFilter.html.

limit

string

Omezuje počet tokenů při indexování. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/LimitTokenCountFilter.html.

lowercase

string

Normalizuje text tokenu na malá písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.htm.

nGram_v2

string

Vygeneruje n-gramů dané velikosti. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenFilter.html.

persian_normalization

string

Použije normalizaci pro perštinu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/fa/PersianNormalizationFilter.html.

phonetic

string

Vytvoření tokenů pro fonetické shody Viz https://lucene.apache.org/core/4_10_3/analyzers-phonetic/org/apache/lucene/analysis/phonetic/package-tree.html.

porter_stem

string

Použije algoritmus stemming porteru k transformaci streamu tokenu. Viz http://tartarus.org/~martin/PorterStemmer.

reverse

string

Obrátí řetězec tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html.

scandinavian_folding

string

Složí znak Skandinávie åÅäæÄÆ-a> a ööøØ-o>. Diskriminuje také použití dvojitých samohlásek aa, ae, ao, oe ao, oe a oo, přičemž ponechá jen první. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianFoldingFilter.html.

scandinavian_normalization

string

Normalizuje použití zaměnitelných znaků ve skandinávii. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ScandinavianNormalizationFilter.html.

shingle

string

Vytvoří kombinace tokenů jako jeden token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/shingle/ShingleFilter.html.

snowball

string

Filtr, který vytváří slova pomocí stopky vygenerované snowballem. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/snowball/SnowballFilter.html.

sorani_normalization

string

Normalizuje reprezentaci textu Sorani v kódování Unicode. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ckb/SoraniNormalizationFilter.html.

stemmer

string

Filtr stemmingu pro konkrétní jazyk. Viz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#TokenFilters.

stopwords

string

Odebere slova stop z datového proudu tokenu. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopFilter.html.

trim

string

Oříznou počáteční a koncové prázdné znaky z tokenů. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TrimFilter.html.

truncate

string

Zkrátí termíny na určitou délku. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/TruncateTokenFilter.html.

unique

string

Vyfiltruje tokeny se stejným textem jako předchozí token. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/RemoveDuplicatesTokenFilter.html.

uppercase

string

Normalizuje text tokenu na velká písmena. Viz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html.

word_delimiter

string

Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví.

TruncateTokenFilter

Zkrátí termíny na určitou délku. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.TruncateTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

length

integer

300

Délka, s jakou budou termíny zkráceny. Výchozí hodnota a maximum je 300.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

UaxUrlEmailTokenizer

Tokenizuje adresy URL a e-maily jako jeden token. Tento tokenizátor se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.UaxUrlEmailTokenizer

Fragment identifikátoru URI určující typ tokenizátoru.

maxTokenLength

integer

255

Maximální délka tokenu. Výchozí hodnota je 255. Tokeny delší než maximální délka jsou rozdělené. Maximální délka tokenu, kterou lze použít, je 300 znaků.

name

string

Název tokenizátoru. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

UniqueTokenFilter

Vyfiltruje tokeny se stejným textem jako předchozí token. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.UniqueTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

onlyOnSamePosition

boolean

False

Hodnota označující, zda se mají odebrat duplicity pouze na stejné pozici. Výchozí hodnota je false.

VectorSearch

Obsahuje možnosti konfigurace související s vektorové vyhledávání.

Name Typ Description
algorithms VectorSearchAlgorithmConfiguration[]:

Obsahuje možnosti konfigurace specifické pro algoritmus použitý při indexování nebo dotazování.

profiles

VectorSearchProfile[]

Definuje kombinace konfigurací pro použití s vektorovým vyhledáváním.

VectorSearchAlgorithmKind

Algoritmus použitý pro indexování a dotazování.

Name Typ Description
exhaustiveKnn

string

Vyčerpávající algoritmus KNN, který bude provádět vyhledávání hrubou silou.

hnsw

string

HNSW (Hierarchical Navigable Small World), typ algoritmu přibližných nejbližších sousedů.

VectorSearchAlgorithmMetric

Metrika podobnosti, která se má použít pro vektorové porovnání.

Name Typ Description
cosine

string

dotProduct

string

euclidean

string

VectorSearchProfile

Definuje kombinaci konfigurací pro použití s vektorovým vyhledáváním.

Name Typ Description
algorithm

string

Název konfigurace algoritmu vektorového vyhledávání, který určuje algoritmus a volitelné parametry.

name

string

Název, který chcete přidružit k tomuto konkrétnímu profilu vektorového vyhledávání.

WordDelimiterTokenFilter

Rozdělí slova na podsloví a provede volitelné transformace skupin podseloví. Tento filtr tokenů se implementuje pomocí Apache Lucene.

Name Typ Výchozí hodnota Description
@odata.type string:

#Microsoft.Azure.Search.WordDelimiterTokenFilter

Fragment identifikátoru URI určující typ filtru tokenu.

catenateAll

boolean

False

Hodnota označující, zda budou všechny části podslovu catenovány. Pokud je například nastavená hodnota true, azure-Search-1 se změní na AzureSearch1. Výchozí hodnota je false.

catenateNumbers

boolean

False

Hodnota označující, zda bude maximální počet spuštění číselných částí catenován. Pokud je například nastavená hodnota true, hodnota 1-2 se změní na 12. Výchozí hodnota je false.

catenateWords

boolean

False

Hodnota označující, zda bude maximální počet spuštění slovních částí očekávkován. Pokud je například nastavená hodnota true, azure-Search se změní na AzureSearch. Výchozí hodnota je false.

generateNumberParts

boolean

True

Hodnota označující, zda se mají generovat číselné podwords. Platí výchozí hodnota.

generateWordParts

boolean

True

Hodnota označující, zda se mají generovat slova části. Je-li nastaven, způsobí, části slov být generovány; Například "AzureSearch" se změní na "Azure" "Search". Platí výchozí hodnota.

name

string

Název filtru tokenů. Musí obsahovat pouze písmena, číslice, mezery, pomlčky nebo podtržítka, může začínat a končit pouze alfanumerickými znaky a je omezený na 128 znaků.

preserveOriginal

boolean

False

Hodnota označující, zda budou původní slova zachována a přidána do seznamu podseznamů. Výchozí hodnota je false.

protectedWords

string[]

Seznam tokenů, které chcete chránit před oddělovači.

splitOnCaseChange

boolean

True

Hodnota označující, zda rozdělit slova na caseChange. Pokud je například nastavená hodnota true, azureSearch se změní na Azure Search. Platí výchozí hodnota.

splitOnNumerics

boolean

True

Hodnota označující, jestli se má rozdělit podle čísel. Pokud je například nastavená hodnota true, Azure1Search se změní na Azure 1 a Search. Platí výchozí hodnota.

stemEnglishPossessive

boolean

True

Hodnota označující, jestli se má pro každé podslovo odebrat koncové "'s". Platí výchozí hodnota.