Indexes - Create Or Update
Tworzy nowy indeks wyszukiwania lub aktualizuje indeks, jeśli już istnieje.
PUT {endpoint}/indexes('{indexName}')?api-version=2023-10-01-Preview
PUT {endpoint}/indexes('{indexName}')?allowIndexDowntime={allowIndexDowntime}&api-version=2023-10-01-Preview
Parametry identyfikatora URI
Nazwa | W | Wymagane | Typ | Opis |
---|---|---|---|---|
endpoint
|
path | True |
string |
Adres URL punktu końcowego usługi wyszukiwania. |
index
|
path | True |
string |
Definicja indeksu do utworzenia lub zaktualizowania. |
api-version
|
query | True |
string |
Wersja interfejsu API klienta. |
allow
|
query |
boolean |
Umożliwia dodawanie nowych analizatorów, tokenizatorów, filtrów tokenów lub filtrów char do indeksu przez co najmniej kilka sekund przełączenie indeksu do trybu offline. Powoduje to tymczasowe niepowodzenie indeksowania i wysyłania zapytań do żądań. Wydajność i dostępność zapisu indeksu może być obniżona przez kilka minut po zaktualizowaniu indeksu lub dłużej dla bardzo dużych indeksów. |
Nagłówek żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
x-ms-client-request-id |
string uuid |
Identyfikator śledzenia wysłany za pomocą żądania ułatwiającego debugowanie. |
|
If-Match |
string |
Definiuje warunek If-Match. Operacja zostanie wykonana tylko wtedy, gdy element ETag na serwerze jest zgodny z tą wartością. |
|
If-None-Match |
string |
Definiuje warunek If-None-Match. Operacja zostanie wykonana tylko wtedy, gdy element ETag na serwerze nie jest zgodny z tą wartością. |
|
Prefer | True |
string |
W przypadku żądań HTTP PUT usługa zwraca utworzony/zaktualizowany zasób w przypadku powodzenia. |
Treść żądania
Nazwa | Wymagane | Typ | Opis |
---|---|---|---|
fields | True |
Pola indeksu. |
|
name | True |
string |
Nazwa indeksu. |
@odata.etag |
string |
Element ETag indeksu. |
|
analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
|
charFilters | CharFilter[]: |
Znaki filtruje indeks. |
|
corsOptions |
Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
||
defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona, a w zapytaniu nie określono żadnego profilu oceniania, zostanie użyty domyślny ocenianie (tf-idf). |
|
encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie przy użyciu kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych w dniu 1 stycznia 2019 r. lub po tym, jak 1 stycznia 2019 r. |
||
normalizers | LexicalNormalizer[]: |
Normalizacje indeksu. |
|
scoringProfiles |
Profile oceniania dla indeksu. |
||
semantic |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne. |
||
similarity | Similarity: |
Typ algorytmu podobieństwa do użycia podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, używany jest algorytm ClassicSimilarity. |
|
suggesters |
Sugestory indeksu. |
||
tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
|
tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
|
vectorSearch |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
Odpowiedzi
Nazwa | Typ | Opis |
---|---|---|
200 OK | ||
201 Created | ||
Other Status Codes |
Odpowiedź na błąd. |
Przykłady
SearchServiceCreateOrUpdateIndex
Sample Request
PUT https://myservice.search.windows.net/indexes('hotels')?allowIndexDowntime=False&api-version=2023-10-01-Preview
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"key": true,
"searchable": false
},
{
"name": "baseRate",
"type": "Edm.Double"
},
{
"name": "description",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"synonymMaps": [],
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile"
},
{
"name": "description_fr",
"type": "Edm.String",
"filterable": false,
"sortable": false,
"facetable": false,
"analyzer": "fr.lucene"
},
{
"name": "hotelName",
"type": "Edm.String"
},
{
"name": "category",
"type": "Edm.String"
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"analyzer": "tagsAnalyzer"
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean"
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean"
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset"
},
{
"name": "rating",
"type": "Edm.Int32"
},
{
"name": "location",
"type": "Edm.GeographyPoint"
}
],
"scoringProfiles": [
{
"name": "geo",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"type": "distance",
"boost": 5,
"fieldName": "location",
"interpolation": "logarithmic",
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2"
}
],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.ClassicSimilarity"
},
"semantic": {
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"m": 4,
"metric": "cosine",
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey"
}
}
]
}
}
Sample Response
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"similarity": {
"@odata.type": "#Microsoft.Azure.Search.BM25Similarity",
"k1": null,
"b": null
},
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"name": "tagsAnalyzer",
"tokenizer": "standard_v2",
"tokenFilters": [],
"charFilters": [
"html_strip"
]
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myKeyName",
"keyVaultKeyVersion": "myKeyVersion",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": {
"applicationId": "00000000-0000-0000-0000-000000000000",
"applicationSecret": null
}
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
{
"name": "hotels",
"fields": [
{
"name": "hotelId",
"type": "Edm.String",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": true,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "baseRate",
"type": "Edm.Double",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "description",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "descriptionEmbedding",
"type": "Collection(Edm.Single)",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": 1536,
"vectorSearchProfile": "myHnswProfile",
"synonymMaps": []
},
{
"name": "description_fr",
"type": "Edm.String",
"searchable": true,
"filterable": false,
"retrievable": true,
"sortable": false,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "fr.lucene",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "hotelName",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "category",
"type": "Edm.String",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "tags",
"type": "Collection(Edm.String)",
"searchable": true,
"filterable": true,
"retrievable": true,
"sortable": false,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": "tagsAnalyzer",
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "parkingIncluded",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "smokingAllowed",
"type": "Edm.Boolean",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "lastRenovationDate",
"type": "Edm.DateTimeOffset",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "rating",
"type": "Edm.Int32",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": true,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
},
{
"name": "location",
"type": "Edm.GeographyPoint",
"searchable": false,
"filterable": true,
"retrievable": true,
"sortable": true,
"facetable": false,
"key": false,
"indexAnalyzer": null,
"searchAnalyzer": null,
"analyzer": null,
"normalizer": null,
"dimensions": null,
"vectorSearchProfile": null,
"synonymMaps": []
}
],
"scoringProfiles": [
{
"name": "geo",
"functionAggregation": "sum",
"text": {
"weights": {
"hotelName": 5
}
},
"functions": [
{
"fieldName": "location",
"interpolation": "logarithmic",
"type": "distance",
"boost": 5,
"distance": {
"referencePointParameter": "currentLocation",
"boostingDistance": 10
}
}
]
}
],
"defaultScoringProfile": "geo",
"suggesters": [
{
"name": "sg",
"searchMode": "analyzingInfixMatching",
"sourceFields": [
"hotelName"
]
}
],
"analyzers": [
{
"name": "tagsAnalyzer",
"@odata.type": "#Microsoft.Azure.Search.CustomAnalyzer",
"charFilters": [
"html_strip"
],
"tokenizer": "standard_v2",
"tokenFilters": []
}
],
"normalizers": [],
"tokenizers": [],
"tokenFilters": [],
"charFilters": [],
"corsOptions": {
"allowedOrigins": [
"tempuri.org"
],
"maxAgeInSeconds": 60
},
"encryptionKey": {
"keyVaultKeyName": "myUserManagedEncryptionKey-createdinAzureKeyVault",
"keyVaultKeyVersion": "myKeyVersion-32charAlphaNumericString",
"keyVaultUri": "https://myKeyVault.vault.azure.net",
"accessCredentials": null
},
"semantic": {
"defaultConfiguration": null,
"configurations": [
{
"name": "semanticHotels",
"prioritizedFields": {
"titleField": {
"fieldName": "hotelName"
},
"prioritizedContentFields": [
{
"fieldName": "description"
},
{
"fieldName": "description_fr"
}
],
"prioritizedKeywordsFields": [
{
"fieldName": "tags"
},
{
"fieldName": "category"
}
]
}
}
]
},
"vectorSearch": {
"algorithms": [
{
"name": "myHnsw",
"kind": "hnsw",
"hnswParameters": {
"metric": "cosine",
"m": 4,
"efConstruction": 400,
"efSearch": 500
}
},
{
"name": "myExhaustiveKnn",
"kind": "exhaustiveKnn",
"exhaustiveKnnParameters": {
"metric": "cosine"
}
}
],
"profiles": [
{
"name": "myHnswProfile",
"algorithm": "myHnsw",
"vectorizer": "myOpenAi"
},
{
"name": "myAlgorithm",
"algorithm": "myHnsw"
}
],
"vectorizers": [
{
"name": "myOpenAi",
"kind": "azureOpenAI",
"azureOpenAIParameters": {
"resourceUri": "https://url.openai.azure.com",
"deploymentId": "text-embedding-ada-002",
"apiKey": "topsecretkey",
"authIdentity": null
}
}
]
}
}
Definicje
Nazwa | Opis |
---|---|
Ascii |
Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (bloku Unicode "Podstawowa łacińska") na ich odpowiedniki ASCII, jeśli istnieją takie odpowiedniki. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Azure |
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault. |
Azure |
Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI. |
Azure |
Określa zasób usługi Azure OpenAI używany do wektoryzacji ciągu zapytania. |
BM25Similarity |
Funkcja klasyfikacji oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do tf-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie terminów (kontrolowane przez parametr k1). |
Char |
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę. |
Cjk |
Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Cjk |
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter. |
Classic |
Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana tf-IDF wprowadza normalizację długości dokumentu statycznego, a także czynniki koordynujące, które karają dokumenty, które są tylko częściowo zgodne z wyszukiwanymi zapytaniami. |
Classic |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Common |
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy są nakładane. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Cors |
Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
Custom |
Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny z możliwością indeksowania/wyszukiwania. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny, a filtry do modyfikowania tokenów emitowanych przez tokenizator. |
Custom |
Umożliwia skonfigurowanie normalizacji dla pól możliwych do filtrowania, sortowania i tworzenia aspektów, które domyślnie działają z rygorystycznym dopasowaniem. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z co najmniej jednego filtru, który modyfikuje przechowywany token. |
Custom |
Określa wektoryzator zdefiniowany przez użytkownika do generowania wektora osadzania ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego interfejsu internetowego interfejsu API zestawu umiejętności. |
Custom |
Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika. |
Dictionary |
Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Distance |
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej. |
Distance |
Udostępnia wartości parametrów funkcji oceniania odległości. |
Edge |
Generuje n-gramy podanych rozmiarów rozpoczynających się od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Edge |
Określa, z której strony wejściowej ma zostać wygenerowany n-gram. |
Edge |
Generuje n-gramy podanych rozmiarów rozpoczynających się od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Edge |
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Elision |
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Exhaustive |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
Exhaustive |
Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, co spowoduje przeprowadzenie wyszukiwania siłowego w całym indeksie wektorów. |
Freshness |
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny. |
Freshness |
Udostępnia wartości parametrów funkcji oceniania świeżości. |
Hnsw |
Zawiera parametry specyficzne dla algorytmu HNSW. |
Hnsw |
Zawiera opcje konfiguracji specyficzne dla algorytmu najbliższego sąsiada HNSW używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwą do dostosowania kompromis między szybkością wyszukiwania a dokładnością. |
Keep |
Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Keyword |
Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Keyword |
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Length |
Usuwa wyrazy, które są za długie lub zbyt krótkie. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Lexical |
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę. |
Lexical |
Definiuje nazwy wszystkich normalizacji tekstu obsługiwanych przez wyszukiwarkę. |
Lexical |
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę. |
Limit |
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Lucene |
Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania. |
Lucene |
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Lucene |
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Magnitude |
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego. |
Magnitude |
Udostępnia wartości parametrów funkcji oceniania wielkości. |
Mapping |
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowania. Dopasowanie jest chciwe (najdłuższy wzór dopasowania w danym punkcie wygrywa). Zamiana może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene. |
Microsoft |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy bazowych. |
Microsoft |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
Microsoft |
Listy języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft. |
Microsoft |
Listy języków obsługiwanych przez tokenizator języka firmy Microsoft. |
NGram |
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
NGram |
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
NGram |
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Path |
Tokenizer dla hierarchii przypominających ścieżkę. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zamiany w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene. |
Pattern |
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie "$1#$2", wynik będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Pattern |
Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Phonetic |
Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter. |
Phonetic |
Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene. |
Prioritized |
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi. |
Regex |
Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca. |
Scoring |
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania. |
Scoring |
Definiuje funkcję używaną do interpolacji wyników zwiększających liczbę dokumentów w wielu dokumentach. |
Scoring |
Definiuje parametry indeksu wyszukiwania mającego wpływ na ocenianie w zapytaniach wyszukiwania. |
Search |
Opisuje warunek błędu interfejsu API. |
Search |
Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola. |
Search |
Definiuje typ danych pola w indeksie wyszukiwania. |
Search |
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu. |
Search |
Czyści właściwość tożsamości źródła danych. |
Search |
Określa tożsamość źródła danych do użycia. |
Search |
Klucz szyfrowania zarządzanego przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów. |
Semantic |
Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych. |
Semantic |
Pole, które jest używane jako część konfiguracji semantycznej. |
Semantic |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne. |
Shingle |
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Snowball |
Filtr, który tworzy wyrazy przy użyciu stemmer wygenerowanego przez Snowball. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Snowball |
Język używany dla filtru tokenu Snowball. |
Stemmer |
Zapewnia możliwość zastępowania innych filtrów ściągnięcia za pomocą niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy stemmed słownika zostaną oznaczone jako słowa kluczowe, aby nie były one stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Stemmer |
Filtr macierzysły specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Stemmer |
Język używany dla filtru tokenu stemmer. |
Stop |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene. |
Stopwords |
Identyfikuje wstępnie zdefiniowaną listę stopwords specyficznych dla języka. |
Stopwords |
Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Suggester |
Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie. |
Suggester |
Wartość wskazująca możliwości sugestora. |
Synonym |
Dopasuje synonimy pojedyncze lub wieloznane w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Tag |
Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów. |
Tag |
Udostępnia wartości parametrów funkcji oceniania tagów. |
Text |
Definiuje wagi w polach indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania. |
Token |
Reprezentuje klasy znaków, na których może działać filtr tokenu. |
Token |
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę. |
Truncate |
Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Uax |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene. |
Unique |
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
Vector |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
Vector |
Algorytm używany do indeksowania i wykonywania zapytań. |
Vector |
Metryka podobieństwa do użycia dla porównań wektorów. |
Vector |
Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorowym. |
Vector |
Metoda wektoryzacji, która ma być używana w czasie wykonywania zapytania. |
Word |
Dzieli wyrazy na słowa podrzędne i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene. |
AsciiFoldingTokenFilter
Konwertuje alfabetyczne, numeryczne i symboliczne znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (bloku Unicode "Podstawowa łacińska") na ich odpowiedniki ASCII, jeśli istnieją takie odpowiedniki. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalny token zostanie zachowany. Wartość domyślna to false. |
AzureActiveDirectoryApplicationCredentials
Poświadczenia zarejestrowanej aplikacji utworzonej dla usługi wyszukiwania używane do uwierzytelnionego dostępu do kluczy szyfrowania przechowywanych w usłudze Azure Key Vault.
Nazwa | Typ | Opis |
---|---|---|
applicationId |
string |
Identyfikator aplikacji usługi AAD, któremu udzielono wymaganych uprawnień dostępu do usługi Azure Key Vault, która ma być używana podczas szyfrowania danych magazynowanych. Identyfikator aplikacji nie powinien być mylony z identyfikatorem obiektu dla aplikacji usługi AAD. |
applicationSecret |
string |
Klucz uwierzytelniania określonej aplikacji usługi AAD. |
AzureOpenAIParameters
Określa parametry nawiązywania połączenia z zasobem usługi Azure OpenAI.
Nazwa | Typ | Opis |
---|---|---|
apiKey |
string |
Klucz interfejsu API wyznaczonego zasobu usługi Azure OpenAI. |
authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana do połączeń wychodzących. |
deploymentId |
string |
Identyfikator wdrożenia modelu Usługi Azure OpenAI w wyznaczonym zasobie. |
resourceUri |
string |
Identyfikator URI zasobu usługi Azure OpenAI. |
AzureOpenAIVectorizer
Określa zasób usługi Azure OpenAI używany do wektoryzacji ciągu zapytania.
Nazwa | Typ | Opis |
---|---|---|
azureOpenAIParameters |
Zawiera parametry specyficzne dla wektoryzacji osadzania usługi Azure OpenAI. |
|
kind |
string:
azure |
Nazwa rodzaju metody wektoryzacji skonfigurowanej do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną metodą wektoryzacji. |
BM25Similarity
Funkcja klasyfikacji oparta na algorytmie podobieństwa Okapi BM25. BM25 to algorytm podobny do tf-IDF, który obejmuje normalizację długości (kontrolowaną przez parametr "b"), a także nasycenie terminów (kontrolowane przez parametr k1).
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
|
b |
number |
Ta właściwość określa, jak długość dokumentu wpływa na ocenę istotności. Domyślnie jest używana wartość 0,75. Wartość 0,0 oznacza, że nie zastosowano normalizacji długości, a wartość 1,0 oznacza, że wynik jest w pełni znormalizowany przez długość dokumentu. |
k1 |
number |
Ta właściwość steruje funkcją skalowania między częstotliwością terminów poszczególnych pasujących terminów a ostatecznym wynikiem istotności pary dokument-zapytanie. Domyślnie jest używana wartość 1.2. Wartość 0,0 oznacza, że wynik nie jest skalowany ze wzrostem częstotliwości terminów. |
CharFilterName
Definiuje nazwy wszystkich filtrów znaków obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
html_strip |
string |
Filtr znaków, który próbuje usunąć konstrukcje HTML. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/charfilter/HTMLStripCharFilter.html |
CjkBigramTokenFilter
Tworzy bigramy terminów CJK generowanych na podstawie standardowego tokenizatora. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreScripts |
Skrypty do zignorowania. |
||
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
outputUnigrams |
boolean |
False |
Wartość wskazująca, czy wyjdą zarówno unigramy, jak i bigramy (jeśli prawda), czy tylko bigramy (jeśli fałsz). Wartość domyślna to false. |
CjkBigramTokenFilterScripts
Skrypty, które mogą być ignorowane przez CjkBigramTokenFilter.
Nazwa | Typ | Opis |
---|---|---|
han |
string |
Ignoruj skrypt Han podczas tworzenia bigramów terminów CJK. |
hangul |
string |
Ignoruj skrypt Hangul podczas tworzenia bigramów terminów CJK. |
hiragana |
string |
Ignoruj skrypt Hiragana podczas tworzenia bigramów terminów CJK. |
katakana |
string |
Ignoruj skrypt Katakana podczas tworzenia bigramów terminów CJK. |
ClassicSimilarity
Starszy algorytm podobieństwa, który używa implementacji TFIDFSimilarity Lucene tf-IDF. Ta odmiana tf-IDF wprowadza normalizację długości dokumentu statycznego, a także czynniki koordynujące, które karają dokumenty, które są tylko częściowo zgodne z wyszukiwanymi zapytaniami.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
ClassicTokenizer
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
CommonGramTokenFilter
Konstruowanie bigramów dla często występujących terminów podczas indeksowania. Pojedyncze terminy są również indeksowane, a bigramy są nakładane. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
commonWords |
string[] |
Zestaw wspólnych słów. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy typowe słowa pasują do liter będą niewrażliwe na wielkość liter. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
queryMode |
boolean |
False |
Wartość wskazująca, czy filtr tokenu jest w trybie zapytania. W trybie zapytania filtr tokenu generuje bigramy, a następnie usuwa typowe słowa i pojedyncze terminy, po których następuje wspólne słowo. Wartość domyślna to false. |
CorsOptions
Definiuje opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu.
Nazwa | Typ | Opis |
---|---|---|
allowedOrigins |
string[] |
Lista źródeł, z których zostanie udzielony dostęp do indeksu w kodzie JavaScript. Może zawierać listę hostów formularza {protocol}://{w pełni kwalifikowana-nazwa-domeny}[:{port#}] lub jeden element "*", aby zezwolić na wszystkie źródła (niezalecane). |
maxAgeInSeconds |
integer |
Czas trwania, dla którego przeglądarki powinny buforować odpowiedzi wstępne CORS. Wartość domyślna to 5 minut. |
CustomAnalyzer
Umożliwia przejęcie kontroli nad procesem konwertowania tekstu na tokeny z możliwością indeksowania/wyszukiwania. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z jednego wstępnie zdefiniowanego tokenizatora i co najmniej jednego filtru. Tokenizer jest odpowiedzialny za podzielenie tekstu na tokeny, a filtry do modyfikowania tokenów emitowanych przez tokenizator.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
charFilters |
Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem przez tokenizator. Mogą na przykład zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w której są wymienione. |
|
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
tokenFilters |
Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenów generowanych przez tokenizator. Można na przykład określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w której są wymienione. |
|
tokenizer |
Nazwa tokenizatora używanego do dzielenia tekstu ciągłego na sekwencję tokenów, na przykład dzielenie zdania na wyrazy. |
CustomNormalizer
Umożliwia skonfigurowanie normalizacji dla pól możliwych do filtrowania, sortowania i tworzenia aspektów, które domyślnie działają z rygorystycznym dopasowaniem. Jest to konfiguracja zdefiniowana przez użytkownika składająca się z co najmniej jednego filtru, który modyfikuje przechowywany token.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ normalizatora. |
charFilters |
Lista filtrów znaków używanych do przygotowywania tekstu wejściowego przed jego przetworzeniem. Mogą na przykład zastąpić niektóre znaki lub symbole. Filtry są uruchamiane w kolejności, w której są wymienione. |
|
name |
string |
Nazwa normalizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. Nie może kończyć się znakiem ".microsoft" ani "lucene", ani mieć nazwy "asciifolding", "standard", "małe litery", "wielkie litery" lub "elision". |
tokenFilters |
Lista filtrów tokenów używanych do filtrowania lub modyfikowania tokenu wejściowego. Można na przykład określić filtr małych liter, który konwertuje wszystkie znaki na małe litery. Filtry są uruchamiane w kolejności, w której są wymienione. |
CustomVectorizer
Określa wektoryzator zdefiniowany przez użytkownika do generowania wektora osadzania ciągu zapytania. Integracja zewnętrznego wektoryzatora jest osiągana przy użyciu niestandardowego interfejsu internetowego interfejsu API zestawu umiejętności.
Nazwa | Typ | Opis |
---|---|---|
customWebApiParameters |
Określa właściwości wektoryzatora zdefiniowanego przez użytkownika. |
|
kind |
string:
custom |
Nazwa rodzaju metody wektoryzacji skonfigurowanej do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną metodą wektoryzacji. |
CustomWebApiParameters
Określa właściwości nawiązywania połączenia z wektoryzatorem zdefiniowanym przez użytkownika.
Nazwa | Typ | Opis |
---|---|---|
authIdentity | SearchIndexerDataIdentity: |
Tożsamość zarządzana przypisana przez użytkownika używana do połączeń wychodzących. Jeśli podano identyfikator authResourceId i nie zostanie określony, zostanie użyta tożsamość zarządzana przypisana przez system. W przypadku aktualizacji indeksatora, jeśli tożsamość jest nieokreślona, wartość pozostaje niezmieniona. Jeśli ustawiono wartość "none", wartość tej właściwości zostanie wyczyszczone. |
authResourceId |
string |
Dotyczy niestandardowych punktów końcowych łączących się z kodem zewnętrznym w funkcji platformy Azure lub inną aplikacją, która udostępnia przekształcenia. Ta wartość powinna być identyfikatorem aplikacji utworzonym dla funkcji lub aplikacji, gdy została zarejestrowana w usłudze Azure Active Directory. Po określeniu wektoryzacja łączy się z funkcją lub aplikacją przy użyciu identyfikatora zarządzanego (systemu lub przypisanego przez użytkownika) usługi wyszukiwania oraz tokenu dostępu funkcji lub aplikacji, używając tej wartości jako identyfikatora zasobu do utworzenia zakresu tokenu dostępu. |
httpHeaders |
object |
Nagłówki wymagane do wykonania żądania HTTP. |
httpMethod |
string |
Metoda żądania HTTP. |
timeout |
string |
Żądany limit czasu żądania. Wartość domyślna to 30 sekund. |
uri |
string |
Identyfikator URI internetowego interfejsu API dostarczający wektoryzator. |
DictionaryDecompounderTokenFilter
Rozkłada złożone wyrazy znalezione w wielu językach niemieckich. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxSubwordSize |
integer |
15 |
Maksymalny rozmiar podordu. Tylko subwords krótsze niż te są zwracane. Domyślną jest 15. Maksymalna wartość to 300. |
minSubwordSize |
integer |
2 |
Minimalny rozmiar podordu. Tylko subwords dłuższe niż te są zwracane. Wartość domyślna to 2. Maksymalna wartość to 300. |
minWordSize |
integer |
5 |
Minimalny rozmiar wyrazu. Tylko wyrazy dłuższe niż ten proces jest przetwarzany. Wartość domyślna to 5. Maksymalna wartość to 300. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
onlyLongestMatch |
boolean |
False |
Wartość wskazująca, czy dodać tylko najdłuższy pasujący podword do danych wyjściowych. Wartość domyślna to false. |
wordList |
string[] |
Lista wyrazów do dopasowania. |
DistanceScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie odległości od lokalizacji geograficznej.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią nie równą 1,0. |
distance |
Wartości parametrów dla funkcji oceniania odległości. |
|
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca sposób interpolacji między wynikami dokumentu; wartość domyślna to "Linear". |
|
type |
string:
distance |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
DistanceScoringParameters
Udostępnia wartości parametrów funkcji oceniania odległości.
Nazwa | Typ | Opis |
---|---|---|
boostingDistance |
number |
Odległość w kilometrach od lokalizacji referencyjnej, w której kończy się zwiększający się zakres. |
referencePointParameter |
string |
Nazwa parametru przekazanego w zapytaniach wyszukiwania w celu określenia lokalizacji referencyjnej. |
EdgeNGramTokenFilter
Generuje n-gramy podanych rozmiarów rozpoczynających się od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
side | front |
Określa, z której strony danych wejściowych powinien zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenFilterSide
Określa, z której strony wejściowej ma zostać wygenerowany n-gram.
Nazwa | Typ | Opis |
---|---|---|
back |
string |
Określa, że n-gram powinny być generowane z tyłu danych wejściowych. |
front |
string |
Określa, że n-gram powinny być generowane z przodu danych wejściowych. |
EdgeNGramTokenFilterV2
Generuje n-gramy podanych rozmiarów rozpoczynających się od przodu lub z tyłu tokenu wejściowego. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalna wartość to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Maksymalna wartość to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
side | front |
Określa, z której strony danych wejściowych powinien zostać wygenerowany n-gram. Wartość domyślna to "front". |
EdgeNGramTokenizer
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
tokenChars |
Klasy znaków do przechowywania w tokenach. |
ElisionTokenFilter
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
articles |
string[] |
Zestaw artykułów do usunięcia. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
ExhaustiveKnnParameters
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN.
Nazwa | Typ | Opis |
---|---|---|
metric |
Metryka podobieństwa do użycia dla porównań wektorów. |
ExhaustiveKnnVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracji specyficzne dla wyczerpującego algorytmu KNN używanego podczas wykonywania zapytań, co spowoduje przeprowadzenie wyszukiwania siłowego w całym indeksie wektorów.
Nazwa | Typ | Opis |
---|---|---|
exhaustiveKnnParameters |
Zawiera parametry specyficzne dla wyczerpującego algorytmu KNN. |
|
kind |
string:
exhaustive |
Nazwa rodzaju algorytmu skonfigurowanego do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
FreshnessScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wartości pola daty i godziny.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią nie równą 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
freshness |
Wartości parametrów dla funkcji oceniania świeżości. |
|
interpolation |
Wartość wskazująca sposób interpolacji między wynikami dokumentu; wartość domyślna to "Linear". |
|
type |
string:
freshness |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
FreshnessScoringParameters
Udostępnia wartości parametrów funkcji oceniania świeżości.
Nazwa | Typ | Opis |
---|---|---|
boostingDuration |
string |
Okres wygaśnięcia, po którym zwiększenie zostanie zatrzymane dla określonego dokumentu. |
HnswParameters
Zawiera parametry specyficzne dla algorytmu HNSW.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
efConstruction |
integer |
400 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie indeksu. Zwiększenie tego parametru może poprawić jakość indeksu, kosztem zwiększonego czasu indeksowania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów. |
efSearch |
integer |
500 |
Rozmiar listy dynamicznej zawierającej najbliższych sąsiadów, który jest używany w czasie wyszukiwania. Zwiększenie tego parametru może poprawić wyniki wyszukiwania kosztem wolniejszego wyszukiwania. W pewnym momencie zwiększenie tego parametru prowadzi do zmniejszenia zwrotów. |
m |
integer |
4 |
Liczba łączy dwukierunkowych utworzonych dla każdego nowego elementu podczas budowy. Zwiększenie tej wartości parametru może poprawić czas wycofywania i zmniejszyć czas pobierania zestawów danych z wysokim wymiarem wewnętrznym kosztem zwiększonego zużycia pamięci i dłuższego czasu indeksowania. |
metric |
Metryka podobieństwa do użycia dla porównań wektorów. |
HnswVectorSearchAlgorithmConfiguration
Zawiera opcje konfiguracji specyficzne dla algorytmu najbliższego sąsiada HNSW używanego podczas indeksowania i wykonywania zapytań. Algorytm HNSW oferuje możliwą do dostosowania kompromis między szybkością wyszukiwania a dokładnością.
Nazwa | Typ | Opis |
---|---|---|
hnswParameters |
Zawiera parametry specyficzne dla algorytmu HNSW. |
|
kind |
string:
hnsw |
Nazwa rodzaju algorytmu skonfigurowanego do użycia z wyszukiwaniem wektorowym. |
name |
string |
Nazwa do skojarzenia z tą konkretną konfiguracją. |
KeepTokenFilter
Filtr tokenu, który przechowuje tylko tokeny z tekstem zawartym na określonej liście wyrazów. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
keepWords |
string[] |
Lista słów do zachowania. |
|
keepWordsCase |
boolean |
False |
Wartość wskazująca, czy najpierw wszystkie wyrazy mają małe litery. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordMarkerTokenFilter
Oznacza terminy jako słowa kluczowe. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy zignorować wielkość liter. W przypadku wartości true wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false. |
keywords |
string[] |
Lista słów do oznaczania jako słów kluczowych. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordTokenizer
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
bufferSize |
integer |
256 |
Rozmiar buforu odczytu w bajtach. Wartość domyślna to 256. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
KeywordTokenizerV2
Emituje całe dane wejściowe jako pojedynczy token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
256 |
Maksymalna długość tokenu. Wartość domyślna to 256. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LengthTokenFilter
Usuwa wyrazy, które są za długie lub zbyt krótkie. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
max |
integer |
300 |
Maksymalna długość znaków. Wartość domyślna i maksymalna to 300. |
min |
integer |
0 |
Minimalna długość znaków. Wartość domyślna to 0. Maksymalna wartość to 300. Musi być mniejsza niż wartość maksymalna. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LexicalAnalyzerName
Definiuje nazwy wszystkich analizatorów tekstu obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
ar.lucene |
string |
Analizator Lucene dla języka arabskiego. |
ar.microsoft |
string |
Analizator firmy Microsoft dla języka arabskiego. |
bg.lucene |
string |
Analizator Lucene dla Bułgarskiego. |
bg.microsoft |
string |
Analizator firmy Microsoft dla Języka Bułgarskiego. |
bn.microsoft |
string |
Analizator firmy Microsoft dla Bangla. |
ca.lucene |
string |
Analizator Lucene dla Katalonii. |
ca.microsoft |
string |
Analizator firmy Microsoft dla Katalonii. |
cs.lucene |
string |
Analizator Lucene dla języka czeskiego. |
cs.microsoft |
string |
Analizator firmy Microsoft dla języka czeskiego. |
da.lucene |
string |
Analizator Lucene dla języka duńskiego. |
da.microsoft |
string |
Analizator firmy Microsoft dla języka duńskiego. |
de.lucene |
string |
Analizator Lucene dla języka niemieckiego. |
de.microsoft |
string |
Analizator firmy Microsoft dla języka niemieckiego. |
el.lucene |
string |
Analizator Lucene dla języka greckiego. |
el.microsoft |
string |
Analizator firmy Microsoft dla języka greckiego. |
en.lucene |
string |
Analizator Lucene dla języka angielskiego. |
en.microsoft |
string |
Analizator firmy Microsoft dla języka angielskiego. |
es.lucene |
string |
Analizator Lucene dla języka hiszpańskiego. |
es.microsoft |
string |
Analizator firmy Microsoft dla języka hiszpańskiego. |
et.microsoft |
string |
Analizator firmy Microsoft dla Estonii. |
eu.lucene |
string |
Analizator Lucene dla Basque. |
fa.lucene |
string |
Analizator Lucene dla Perskiego. |
fi.lucene |
string |
Analizator Lucene dla fińskiego. |
fi.microsoft |
string |
Analizator firmy Microsoft dla fińskiego. |
fr.lucene |
string |
Analizator Lucene dla języka francuskiego. |
fr.microsoft |
string |
Analizator firmy Microsoft dla języka francuskiego. |
ga.lucene |
string |
Analizator Lucene dla Irlandczyków. |
gl.lucene |
string |
Analizator Lucene dla Galicji. |
gu.microsoft |
string |
Analizator firmy Microsoft dla Gujarati. |
he.microsoft |
string |
Analizator firmy Microsoft dla języka hebrajskiego. |
hi.lucene |
string |
Analizator Lucene dla języka Hindi. |
hi.microsoft |
string |
Analizator firmy Microsoft dla języka Hindi. |
hr.microsoft |
string |
Analizator firmy Microsoft dla Chorwackiego. |
hu.lucene |
string |
Analizator Lucene dla Węgier. |
hu.microsoft |
string |
Analizator firmy Microsoft dla języka węgierskiego. |
hy.lucene |
string |
Analizator Lucene dla Ormiańskiego. |
id.lucene |
string |
Analizator Lucene dla indonezyjskiego. |
id.microsoft |
string |
Analizator firmy Microsoft dla indonezyjskiego (Bahasa). |
is.microsoft |
string |
Analizator firmy Microsoft dla islandii. |
it.lucene |
string |
Analizator Lucene dla języka włoskiego. |
it.microsoft |
string |
Analizator firmy Microsoft dla języka włoskiego. |
ja.lucene |
string |
Analizator Lucene dla języka japońskiego. |
ja.microsoft |
string |
Analizator firmy Microsoft dla języka japońskiego. |
keyword |
string |
Traktuje całą zawartość pola jako pojedynczy token. Jest to przydatne w przypadku danych, takich jak kody pocztowe, identyfikatory i niektóre nazwy produktów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordAnalyzer.html |
kn.microsoft |
string |
Analizator firmy Microsoft dla kannada. |
ko.lucene |
string |
Analizator Lucene dla języka koreańskiego. |
ko.microsoft |
string |
Analizator firmy Microsoft dla języka koreańskiego. |
lt.microsoft |
string |
Analizator firmy Microsoft dla Litwy. |
lv.lucene |
string |
Analizator Lucene dla Łotewskiego. |
lv.microsoft |
string |
Analizator firmy Microsoft dla Łotewskiego. |
ml.microsoft |
string |
Analizator firmy Microsoft dla malajalamu. |
mr.microsoft |
string |
Microsoft analyzer dla Marathi. |
ms.microsoft |
string |
Microsoft analyzer dla Malay (łaciński). |
nb.microsoft |
string |
Analizator firmy Microsoft dla języka norweskiego (Bokmål). |
nl.lucene |
string |
Analizator Lucene dla holenderskiego. |
nl.microsoft |
string |
Analizator firmy Microsoft dla holenderskiego. |
no.lucene |
string |
Analizator Lucene dla norweskiego. |
pa.microsoft |
string |
Analizator firmy Microsoft dla Punjabi. |
pattern |
string |
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/PatternAnalyzer.html |
pl.lucene |
string |
Analizator Lucene dla polski. |
pl.microsoft |
string |
Microsoft analyzer dla polski. |
pt-BR.lucene |
string |
Analizator Lucene dla portugalskiego (Brazylia). |
pt-BR.microsoft |
string |
Analizator firmy Microsoft dla języka portugalskiego (Brazylia). |
pt-PT.lucene |
string |
Analizator Lucene dla portugalskiego (Portugalia). |
pt-PT.microsoft |
string |
Analizator firmy Microsoft dla języka portugalskiego (Portugalia). |
ro.lucene |
string |
Analizator Lucene dla języka rumuńskiego. |
ro.microsoft |
string |
Analizator firmy Microsoft dla języka rumuńskiego. |
ru.lucene |
string |
Analizator Lucene dla języka rosyjskiego. |
ru.microsoft |
string |
Analizator firmy Microsoft dla języka rosyjskiego. |
simple |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/SimpleAnalyzer.html |
sk.microsoft |
string |
Analizator firmy Microsoft dla języka słowackiego. |
sl.microsoft |
string |
Analizator firmy Microsoft dla słowenii. |
sr-cyrillic.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (cyrylica). |
sr-latin.microsoft |
string |
Analizator firmy Microsoft dla serbskiego (łacińskiego). |
standard.lucene |
string |
Standardowy analizator Lucene. |
standardasciifolding.lucene |
string |
Standardowy analizator Lucene składany ASCII. Zobacz https://docs.microsoft.com/rest/api/searchservice/Custom-analyzers-in-Azure-Search#Analyzers |
stop |
string |
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/StopAnalyzer.html |
sv.lucene |
string |
Analizator Lucene dla szwedzkiego. |
sv.microsoft |
string |
Analizator firmy Microsoft dla języka szwedzkiego. |
ta.microsoft |
string |
Analizator firmy Microsoft dla Tamilu. |
te.microsoft |
string |
Analizator firmy Microsoft dla usługi Telugu. |
th.lucene |
string |
Analizator Lucene dla języka tajskiego. |
th.microsoft |
string |
Analizator firmy Microsoft dla języka tajskiego. |
tr.lucene |
string |
Analizator Lucene dla języka tureckiego. |
tr.microsoft |
string |
Analizator firmy Microsoft dla języka tureckiego. |
uk.microsoft |
string |
Analizator firmy Microsoft dla Ukrainy. |
ur.microsoft |
string |
Microsoft analyzer dla Urdu. |
vi.microsoft |
string |
Analizator firmy Microsoft dla wietnamskich. |
whitespace |
string |
Analizator używający tokenizatora odstępów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceAnalyzer.html |
zh-Hans.lucene |
string |
Analizator Lucene dla języka chińskiego (uproszczony). |
zh-Hans.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (uproszczony). |
zh-Hant.lucene |
string |
Analizator Lucene dla języka chińskiego (tradycyjny). |
zh-Hant.microsoft |
string |
Analizator firmy Microsoft dla języka chińskiego (tradycyjny). |
LexicalNormalizerName
Definiuje nazwy wszystkich normalizacji tekstu obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
asciifolding |
string |
Konwertuje znaki alfabetyczne, numeryczne i symboliczne Znaki Unicode, które nie znajdują się w pierwszych 127 znakach ASCII (blok "Basic Latin" Unicode) na ich odpowiedniki ASCII, jeśli takie odpowiedniki istnieją. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/miscellaneous/ASCIIFoldingFilter.html |
elision |
string |
Usuwa elizji. Na przykład "l'avion" (płaszczyzna) zostanie przekonwertowana na "avion" (płaszczyzna). Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/util/ElisionFilter.html |
lowercase |
string |
Normalizuje tekst tokenu na małe litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/LowerCaseFilter.html |
standard |
string |
Standard normalizer, który składa się z małych i asciifolding. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/reverse/ReverseStringFilter.html |
uppercase |
string |
Normalizuje tekst tokenu na wielkie litery. Zobacz https://lucene.apache.org/core/6_6_1/analyzers-common/org/apache/lucene/analysis/core/UpperCaseFilter.html |
LexicalTokenizerName
Definiuje nazwy wszystkich tokenizatorów obsługiwanych przez wyszukiwarkę.
Nazwa | Typ | Opis |
---|---|---|
classic |
string |
Tokenizator oparty na gramatyce, który jest odpowiedni do przetwarzania większości dokumentów w języku europejskim. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/ClassicTokenizer.html |
edgeNGram |
string |
Tokenizuje dane wejściowe z krawędzi do n-gramów danego rozmiaru. Zobacz https://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/EdgeNGramTokenizer.html |
keyword_v2 |
string |
Emituje całe dane wejściowe jako pojedynczy token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/KeywordTokenizer.html |
letter |
string |
Dzieli tekst na litery inne niż litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LetterTokenizer.html |
lowercase |
string |
Dzieli tekst na litery inne niż litery i konwertuje je na małe litery. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/LowerCaseTokenizer.html |
microsoft_language_stemming_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy bazowych. |
microsoft_language_tokenizer |
string |
Dzieli tekst przy użyciu reguł specyficznych dla języka. |
nGram |
string |
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/ngram/NGramTokenizer.html |
path_hierarchy_v2 |
string |
Tokenizer dla hierarchii przypominających ścieżkę. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/path/PathHierarchyTokenizer.html |
pattern |
string |
Tokenizator, który używa dopasowania wzorca wyrażeń regularnych do konstruowania odrębnych tokenów. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/pattern/PatternTokenizer.html |
standard_v2 |
string |
Standardowy analizator Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/StandardTokenizer.html |
uax_url_email |
string |
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/standard/UAX29URLEmailTokenizer.html |
whitespace |
string |
Dzieli tekst na białe znaki. Zobacz http://lucene.apache.org/core/4_10_3/analyzers-common/org/apache/lucene/analysis/core/WhitespaceTokenizer.html |
LimitTokenFilter
Ogranicza liczbę tokenów podczas indeksowania. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
consumeAllTokens |
boolean |
False |
Wartość wskazująca, czy wszystkie tokeny z danych wejściowych muszą być używane, nawet jeśli wartość maxTokenCount zostanie osiągnięta. Wartość domyślna to false. |
maxTokenCount |
integer |
1 |
Maksymalna liczba tokenów do utworzenia. Domyślna wartość wynosi 1. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LuceneStandardAnalyzer
Standardowy analizator Apache Lucene; Składa się ze standardowego tokenizatora, małych liter i filtru zatrzymania.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
stopwords |
string[] |
Lista stopwords. |
LuceneStandardTokenizer
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
LuceneStandardTokenizerV2
Przerywa tekst po regułach segmentacji tekstu Unicode. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MagnitudeScoringFunction
Definiuje funkcję, która zwiększa wyniki na podstawie wielkości pola liczbowego.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią nie równą 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca sposób interpolacji między wynikami dokumentu; wartość domyślna to "Linear". |
|
magnitude |
Wartości parametrów dla funkcji oceniania wielkości. |
|
type |
string:
magnitude |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
MagnitudeScoringParameters
Udostępnia wartości parametrów funkcji oceniania wielkości.
Nazwa | Typ | Opis |
---|---|---|
boostingRangeEnd |
number |
Wartość pola, w której kończy się zwiększenie. |
boostingRangeStart |
number |
Wartość pola, w której rozpoczyna się zwiększanie. |
constantBoostBeyondRange |
boolean |
Wartość wskazująca, czy zastosować stały impuls dla wartości pól poza wartością końcową zakresu; wartość domyślna to false. |
MappingCharFilter
Filtr znaków, który stosuje mapowania zdefiniowane za pomocą opcji mapowania. Dopasowanie jest chciwe (najdłuższy wzór dopasowania w danym punkcie wygrywa). Zamiana może być pustym ciągiem. Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru znaków. |
mappings |
string[] |
Lista mapowań w następującym formacie: "a=>b" (wszystkie wystąpienia znaku "a" zostaną zastąpione znakiem "b"). |
name |
string |
Nazwa filtru znaków. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftLanguageStemmingTokenizer
Dzieli tekst przy użyciu reguł specyficznych dla języka i zmniejsza liczbę wyrazów do ich formularzy bazowych.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
isSearchTokenizer |
boolean |
False |
Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizator wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false. |
language |
Język do użycia. Wartość domyślna to angielski. |
||
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie ustawionej maksymalnej długości tokenu. Wartość domyślna to 255. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftLanguageTokenizer
Dzieli tekst przy użyciu reguł specyficznych dla języka.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
isSearchTokenizer |
boolean |
False |
Wartość wskazująca sposób użycia tokenizatora. Ustaw wartość true, jeśli jest używana jako tokenizator wyszukiwania, ustaw wartość false, jeśli jest używana jako tokenizer indeksowania. Wartość domyślna to false. |
language |
Język do użycia. Wartość domyślna to angielski. |
||
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Tokeny dłuższe niż maksymalna długość są dzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. Tokeny dłuższe niż 300 znaków są najpierw podzielone na tokeny o długości 300, a następnie każdy z tych tokenów jest podzielony na podstawie ustawionej maksymalnej długości tokenu. Wartość domyślna to 255. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
MicrosoftStemmingTokenizerLanguage
Listy języków obsługiwanych przez tokenizatora macierzystego języka firmy Microsoft.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka arabskiego. |
bangla |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Bangla. |
bulgarian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka bułgarskiego. |
catalan |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka katalońskiego. |
croatian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Chorwacji. |
czech |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka czeskiego. |
danish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka holenderskiego. |
english |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka angielskiego. |
estonian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka estońskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka francuskiego. |
german |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka niemieckiego. |
greek |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka greckiego. |
gujarati |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Gujarati. |
hebrew |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hebrajskiego. |
hindi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hindi. |
hungarian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka węgierskiego. |
icelandic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Islandii. |
indonesian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka indonezyjskiego. |
italian |
string |
Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla języka włoskiego. |
kannada |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla kannady. |
latvian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Łotewskiego. |
lithuanian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Litwy. |
malay |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Malay. |
malayalam |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla malajlamu. |
marathi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla marathi. |
norwegianBokmaal |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka norweskiego (Bokmål). |
polish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka polskiego. |
portuguese |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego. |
portugueseBrazilian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka portugalskiego (Brazylia). |
punjabi |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Punjabi. |
romanian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka rosyjskiego. |
serbianCyrillic |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (cyrylica). |
serbianLatin |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla serbskiego (łacińskiego). |
slovak |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka słowackiego. |
slovenian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla słowenii. |
spanish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka szwedzkiego. |
tamil |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla Tamilu. |
telugu |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla aplikacji Telugu. |
turkish |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka tureckiego. |
ukrainian |
string |
Wybiera tokenizatora macierzystego firmy Microsoft dla języka ukraińskiego. |
urdu |
string |
Wybiera wystawcę tokenizatora macierzystego firmy Microsoft dla urdu. |
MicrosoftTokenizerLanguage
Listy języków obsługiwanych przez tokenizator języka firmy Microsoft.
Nazwa | Typ | Opis |
---|---|---|
bangla |
string |
Wybiera tokenizator firmy Microsoft dla Bangla. |
bulgarian |
string |
Wybiera tokenizator firmy Microsoft dla języka bułgarskiego. |
catalan |
string |
Wybiera tokenizator firmy Microsoft dla języka katalońskiego. |
chineseSimplified |
string |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (uproszczony). |
chineseTraditional |
string |
Wybiera tokenizator firmy Microsoft dla języka chińskiego (tradycyjny). |
croatian |
string |
Wybiera tokenizator firmy Microsoft dla Chorwacji. |
czech |
string |
Wybiera tokenizator firmy Microsoft dla języka czeskiego. |
danish |
string |
Wybiera tokenizator firmy Microsoft dla języka duńskiego. |
dutch |
string |
Wybiera tokenizator firmy Microsoft dla języka holenderskiego. |
english |
string |
Wybiera tokenizator firmy Microsoft dla języka angielskiego. |
french |
string |
Wybiera tokenizator firmy Microsoft dla języka francuskiego. |
german |
string |
Wybiera tokenizator firmy Microsoft dla języka niemieckiego. |
greek |
string |
Wybiera tokenizator firmy Microsoft dla języka greckiego. |
gujarati |
string |
Wybiera tokenizator firmy Microsoft dla gudżarati. |
hindi |
string |
Wybiera tokenizator firmy Microsoft dla języka hindi. |
icelandic |
string |
Wybiera tokenizator firmy Microsoft dla islandii. |
indonesian |
string |
Wybiera tokenizator firmy Microsoft dla języka indonezyjskiego. |
italian |
string |
Wybiera tokenizator firmy Microsoft dla języka włoskiego. |
japanese |
string |
Wybiera tokenizator firmy Microsoft dla języka japońskiego. |
kannada |
string |
Wybiera tokenizator firmy Microsoft dla aplikacji Kannada. |
korean |
string |
Wybiera tokenizator firmy Microsoft dla języka koreańskiego. |
malay |
string |
Wybiera tokenizator firmy Microsoft dla malaji. |
malayalam |
string |
Wybiera tokenizator firmy Microsoft dla malajalamu. |
marathi |
string |
Wybiera tokenizator firmy Microsoft dla programu Marathi. |
norwegianBokmaal |
string |
Wybiera tokenizator firmy Microsoft dla języka norweskiego (Bokmål). |
polish |
string |
Wybiera tokenizator firmy Microsoft dla języka polskiego. |
portuguese |
string |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego. |
portugueseBrazilian |
string |
Wybiera tokenizator firmy Microsoft dla języka portugalskiego (Brazylia). |
punjabi |
string |
Wybiera tokenizator firmy Microsoft dla Punjabi. |
romanian |
string |
Wybiera tokenizator firmy Microsoft dla języka rumuńskiego. |
russian |
string |
Wybiera tokenizator firmy Microsoft dla języka rosyjskiego. |
serbianCyrillic |
string |
Wybiera tokenizator firmy Microsoft dla serbskiego (cyrylica). |
serbianLatin |
string |
Wybiera tokenizator firmy Microsoft dla języka serbskiego (łacińskiego). |
slovenian |
string |
Wybiera tokenizator firmy Microsoft dla słowenii. |
spanish |
string |
Wybiera tokenizator firmy Microsoft dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizator firmy Microsoft dla języka szwedzkiego. |
tamil |
string |
Wybiera tokenizator firmy Microsoft dla Tamilu. |
telugu |
string |
Wybiera tokenizator firmy Microsoft dla aplikacji Telugu. |
thai |
string |
Wybiera tokenizator firmy Microsoft dla języka tajskiego. |
ukrainian |
string |
Wybiera tokenizator firmy Microsoft dla języka ukraińskiego. |
urdu |
string |
Wybiera tokenizator firmy Microsoft dla urdu. |
vietnamese |
string |
Wybiera tokenizator firmy Microsoft dla wietnamskich. |
NGramTokenFilter
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
NGramTokenFilterV2
Generuje n-gramy danego rozmiaru. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Maksymalna wartość to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Maksymalna wartość to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
NGramTokenizer
Tokenizuje dane wejściowe do n-gramów danego rozmiaru. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxGram |
integer |
2 |
Maksymalna długość n-grama. Wartość domyślna to 2. Wartość maksymalna to 300. |
minGram |
integer |
1 |
Minimalna długość n-grama. Domyślna wartość wynosi 1. Wartość maksymalna to 300. Musi być mniejsza niż wartość maxGram. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
tokenChars |
Klasy znaków do przechowywania w tokenach. |
PathHierarchyTokenizerV2
Tokenizer dla hierarchii przypominających ścieżkę. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
delimiter |
string |
/ |
Znak ogranicznika do użycia. Wartość domyślna to "/". |
maxTokenLength |
integer |
300 |
Maksymalna długość tokenu. Wartość domyślna i maksymalna to 300. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
replacement |
string |
/ |
Wartość, która, jeśli jest ustawiona, zastępuje znak ogranicznika. Wartość domyślna to "/". |
reverse |
boolean |
False |
Wartość wskazująca, czy tokeny mają być generowane w odwrotnej kolejności. Wartość domyślna to false. |
skip |
integer |
0 |
Liczba tokenów początkowych do pominięcia. Wartość domyślna to 0. |
PatternAnalyzer
Elastycznie rozdziela tekst na terminy za pomocą wzorca wyrażenia regularnego. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
|
flags |
Flagi wyrażeń regularnych. |
||
lowercase |
boolean |
True |
Wartość wskazująca, czy terminy powinny być małe litery. Wartość domyślna to „true”. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego do dopasowania separatorów tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż wyraz. |
stopwords |
string[] |
Lista stopwords. |
PatternCaptureTokenFilter
Używa wyrażeń regularnych Języka Java do emitowania wielu tokenów — jednej dla każdej grupy przechwytywania w co najmniej jednym wzorze. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
patterns |
string[] |
Lista wzorców do dopasowania do każdego tokenu. |
|
preserveOriginal |
boolean |
True |
Wartość wskazująca, czy zwracać oryginalny token, nawet jeśli jeden z wzorców jest zgodny. Wartość domyślna to „true”. |
PatternReplaceCharFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zamiany w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie wartości "$1#$2", wynikiem będzie "aa#bb aa#bb". Ten filtr znaków jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru znaków. |
name |
string |
Nazwa filtru znaków. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
pattern |
string |
Wzorzec wyrażenia regularnego. |
replacement |
string |
Tekst zastępczy. |
PatternReplaceTokenFilter
Filtr znaków, który zastępuje znaki w ciągu wejściowym. Używa wyrażenia regularnego do identyfikowania sekwencji znaków w celu zachowania i wzorca zastępczego w celu zidentyfikowania znaków do zastąpienia. Na przykład, biorąc pod uwagę tekst wejściowy "aa bb aa bb", wzorzec "(aa)\s+(bb)" i zastąpienie "$1#$2", wynik będzie "aa#bb aa#bb". Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
pattern |
string |
Wzorzec wyrażenia regularnego. |
replacement |
string |
Tekst zastępczy. |
PatternTokenizer
Tokenizer, który używa dopasowania wzorca regularnego do konstruowania odrębnych tokenów. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
flags |
Flagi wyrażeń regularnych. |
||
group |
integer |
-1 |
Porządkowość oparta na zerowej grupie pasującej we wzorcu wyrażenia regularnego w celu wyodrębnienia do tokenów. Użyj -1, jeśli chcesz użyć całego wzorca, aby podzielić dane wejściowe na tokeny, niezależnie od pasujących grup. Wartość domyślna to -1. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
pattern |
string |
\W+ |
Wzorzec wyrażenia regularnego odpowiadający separatorom tokenów. Wartość domyślna to wyrażenie zgodne z co najmniej jednym znakiem innym niż słowo. |
PhoneticEncoder
Określa typ kodera fonetycznego do użycia z PhoneticTokenFilter.
Nazwa | Typ | Opis |
---|---|---|
beiderMorse |
string |
Koduje token do wartości Beider-Morse. |
caverphone1 |
string |
Koduje token do wartości Caverphone 1.0. |
caverphone2 |
string |
Koduje token do wartości Caverphone 2.0. |
cologne |
string |
Koduje token do wartości fonetycznej w Kolonii. |
doubleMetaphone |
string |
Koduje token do podwójnej wartości metafonu. |
haasePhonetik |
string |
Koduje token przy użyciu uściślenia Haase algorytmu Kölner Phonetik. |
koelnerPhonetik |
string |
Koduje token przy użyciu algorytmu Kölner Phonetik. |
metaphone |
string |
Koduje token do wartości metafonu. |
nysiis |
string |
Koduje token do wartości NYSIIS. |
refinedSoundex |
string |
Koduje token do wartości uściślonego elementu Soundex. |
soundex |
string |
Koduje token do wartości Soundex. |
PhoneticTokenFilter
Tworzenie tokenów dla dopasowań fonetycznych. Ten filtr tokenu jest implementowany przy użyciu rozwiązania Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
encoder | metaphone |
Koder fonetyczny do użycia. Wartość domyślna to "metaphone". |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
replace |
boolean |
True |
Wartość wskazująca, czy zakodowane tokeny powinny zastąpić oryginalne tokeny. W przypadku wartości false tokeny zakodowane są dodawane jako synonimy. Wartość domyślna to „true”. |
PrioritizedFields
Opisuje pola tytułu, zawartości i słów kluczowych, które mają być używane do klasyfikacji semantycznej, podpisów, wyróżnień i odpowiedzi.
Nazwa | Typ | Opis |
---|---|---|
prioritizedContentFields |
Definiuje pola zawartości, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać tekst w formularzu języka naturalnego. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
prioritizedKeywordsFields |
Definiuje pola słów kluczowych, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Aby uzyskać najlepszy wynik, wybrane pola powinny zawierać listę słów kluczowych. Kolejność pól w tablicy reprezentuje ich priorytet. Pola o niższym priorytecie mogą zostać obcięte, jeśli zawartość jest długa. |
|
titleField |
Definiuje pole tytułu, które ma być używane do semantycznego klasyfikowania, podpisów, wyróżniania i odpowiedzi. Jeśli nie masz pola tytułu w indeksie, pozostaw to pole puste. |
RegexFlags
Definiuje flagi, które można połączyć w celu kontrolowania sposobu użycia wyrażeń regularnych w analizatorze wzorców i tokenizatorze wzorca.
Nazwa | Typ | Opis |
---|---|---|
CANON_EQ |
string |
Umożliwia równoważność kanoniczną. |
CASE_INSENSITIVE |
string |
Włącza dopasowywanie bez uwzględniania wielkości liter. |
COMMENTS |
string |
Zezwala na białe znaki i komentarze we wzorcu. |
DOTALL |
string |
Włącza tryb dotall. |
LITERAL |
string |
Włącza analizowanie literałów wzorca. |
MULTILINE |
string |
Włącza tryb wielowierszowy. |
UNICODE_CASE |
string |
Umożliwia składanie wielkości liter obsługujących kod Unicode. |
UNIX_LINES |
string |
Włącza tryb linii systemu Unix. |
ScoringFunctionAggregation
Definiuje funkcję agregacji używaną do łączenia wyników wszystkich funkcji oceniania w profilu oceniania.
Nazwa | Typ | Opis |
---|---|---|
average |
string |
Zwiększ wyniki według średniej wszystkich wyników funkcji oceniania. |
firstMatching |
string |
Zwiększ wyniki przy użyciu pierwszej odpowiedniej funkcji oceniania w profilu oceniania. |
maximum |
string |
Zwiększ wyniki według maksymalnej liczby wszystkich wyników funkcji oceniania. |
minimum |
string |
Zwiększ wyniki według minimum wszystkich wyników funkcji oceniania. |
sum |
string |
Zwiększ wyniki według sumy wszystkich wyników funkcji oceniania. |
ScoringFunctionInterpolation
Definiuje funkcję używaną do interpolacji wyników zwiększających liczbę dokumentów w wielu dokumentach.
Nazwa | Typ | Opis |
---|---|---|
constant |
string |
Zwiększa wyniki według stałego współczynnika. |
linear |
string |
Zwiększa wyniki przez liniowo malejącą kwotę. Jest to domyślna interpolacja dla funkcji oceniania. |
logarithmic |
string |
Zwiększa wyniki o kwotę, która zmniejsza logarytmicznie. Impulsy szybko zmniejszają się w przypadku wyższych wyników i wolniej w miarę spadku wyników. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
quadratic |
string |
Zwiększa wyniki o kwotę, która zmniejsza ćwiartkę. Impulsy powoli zmniejszają się w przypadku wyższych wyników i szybciej, gdy wyniki spadają. Ta opcja interpolacji nie jest dozwolona w funkcjach oceniania tagów. |
ScoringProfile
Definiuje parametry indeksu wyszukiwania mającego wpływ na ocenianie w zapytaniach wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
functionAggregation |
Wartość wskazująca sposób łączenia wyników poszczególnych funkcji oceniania. Wartość domyślna to "Suma". Ignorowane, jeśli nie ma funkcji oceniania. |
|
functions | ScoringFunction[]: |
Kolekcja funkcji mających wpływ na ocenianie dokumentów. |
name |
string |
Nazwa profilu oceniania. |
text |
Parametry zwiększające ocenianie na podstawie dopasowań tekstowych w niektórych polach indeksu. |
SearchError
Opisuje warunek błędu interfejsu API.
Nazwa | Typ | Opis |
---|---|---|
code |
string |
Jeden z zdefiniowanych przez serwer zestaw kodów błędów. |
details |
Tablica szczegółów dotyczących określonych błędów, które doprowadziły do tego zgłoszonego błędu. |
|
message |
string |
Czytelna dla człowieka reprezentacja błędu. |
SearchField
Reprezentuje pole w definicji indeksu, które opisuje nazwę, typ danych i zachowanie wyszukiwania pola.
Nazwa | Typ | Opis |
---|---|---|
analyzer |
Nazwa analizatora do użycia dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania i nie można jej ustawić razem z funkcją searchAnalyzer lub indexAnalyzer. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
dimensions |
integer |
Wymiarowość pola wektora. |
facetable |
boolean |
Wartość wskazująca, czy pole ma być przywołyne w zapytaniach aspektowych. Zazwyczaj używane w prezentacji wyników wyszukiwania, które obejmują liczbę trafień według kategorii (na przykład wyszukiwanie cyfrowych aparatów fotograficznych i wyświetlanie trafień według marki, przez megalimetry, ceny itd.). Ta właściwość musi mieć wartość null dla pól złożonych. Pola typu Edm.GeographyPoint lub Collection(Edm.GeographyPoint) nie mogą być aspektowe. Wartość domyślna jest prawdziwa dla wszystkich innych prostych pól. |
fields |
Lista pól podrzędnych, jeśli jest to pole typu Edm.ComplexType lub Collection(Edm.ComplexType). Musi mieć wartość null lub być pusta dla prostych pól. |
|
filterable |
boolean |
Wartość wskazująca, czy pole ma być przywołyne w zapytaniach $filter. funkcja filtrowania różni się od możliwości wyszukiwania w sposobie obsługi ciągów. Pola typu Edm.String lub Collection(Edm.String), które można filtrować, nie są poddawane łamaniu wyrazów, więc porównania dotyczą tylko dokładnych dopasowań. Jeśli na przykład ustawisz takie pole f na "słoneczny dzień", $filter=f eq "sunny" nie znajdzie meczów, ale $filter=f eq "słoneczny dzień". Ta właściwość musi mieć wartość null dla pól złożonych. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych. |
indexAnalyzer |
Nazwa analizatora używanego w czasie indeksowania dla pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z funkcją searchAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Po wybraniu analizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
key |
boolean |
Wartość wskazująca, czy pole jednoznacznie identyfikuje dokumenty w indeksie. Dokładnie jedno pole najwyższego poziomu w każdym indeksie musi być wybrane jako pole klucza i musi być typu Edm.String. Pola klucza mogą służyć do bezpośredniego wyszukiwania dokumentów i aktualizowania lub usuwania określonych dokumentów. Wartość domyślna to fałsz dla prostych pól i wartości null dla pól złożonych. |
name |
string |
Nazwa pola, które musi być unikatowe w kolekcji pól indeksu lub pola nadrzędnego. |
normalizer |
Nazwa normalizatora do użycia dla pola. Tej opcji można używać tylko z polami z włączonym filtrowaniem, sortowaniem lub aspektami. Po wybraniu normalizatora nie można go zmienić dla pola. Musi mieć wartość null dla pól złożonych. |
|
retrievable |
boolean |
Wartość wskazująca, czy pole można zwrócić w wynikach wyszukiwania. Tę opcję można wyłączyć, jeśli chcesz użyć pola (na przykład marginesu) jako mechanizmu filtrowania, sortowania lub oceniania, ale nie chcesz, aby pole było widoczne dla użytkownika końcowego. Ta właściwość musi mieć wartość true dla pól kluczy i musi mieć wartość null dla pól złożonych. Tę właściwość można zmienić w istniejących polach. Włączenie tej właściwości nie powoduje wzrostu wymagań dotyczących magazynu indeksów. Wartość domyślna dotyczy prostych pól i wartości null dla pól złożonych. |
searchAnalyzer |
Nazwa analizatora używanego w czasie wyszukiwania pola. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Należy go ustawić razem z indeksemAnalyzer i nie można go ustawić razem z opcją analizatora. Nie można ustawić tej właściwości na nazwę analizatora języka; Zamiast tego należy użyć właściwości analizatora, jeśli potrzebujesz analizatora języka. Ten analizator można zaktualizować w istniejącym polu. Musi mieć wartość null dla pól złożonych. |
|
searchable |
boolean |
Wartość wskazująca, czy pole można przeszukiwać pełnotekstowo. Oznacza to, że zostanie ona poddana analizie, takiej jak łamanie wyrazów podczas indeksowania. Ustawienie wartości „sunny day” dla pola z możliwością wyszukiwania spowoduje podział na dwa oddzielne tokeny „sunny” i „day”. Umożliwia to wyszukiwanie pełnotekstowe dla tych terminów. Pola typu Edm.String lub Collection(Edm.String) można wyszukiwać domyślnie. Ta właściwość musi być fałszywa dla prostych pól innych typów danych innych niż ciągi i musi mieć wartość null dla pól złożonych. Uwaga: pola z możliwością wyszukiwania zużywają dodatkowe miejsce w indeksie, aby pomieścić dodatkowe tokenizowane wersje wartości pola na potrzeby wyszukiwania pełnotekstowego. Jeśli chcesz zaoszczędzić miejsce w indeksie i nie musisz uwzględniać pola w wyszukiwaniach, ustaw wartość false. |
sortable |
boolean |
Wartość wskazująca, czy pole ma być przywoływane w wyrażeniach $orderby. Domyślnie wyszukiwarka sortuje wyniki według wyników, ale w wielu środowiskach użytkownicy będą chcieli sortować według pól w dokumentach. Proste pole można sortować tylko wtedy, gdy jest jednowartościowe (ma jedną wartość w zakresie dokumentu nadrzędnego). Proste pola kolekcji nie mogą być sortowane, ponieważ są wielowartośćowe. Proste podpole złożonych kolekcji są również wielowartościowe i dlatego nie można ich sortować. Jest to prawda, czy jest to bezpośrednie pole nadrzędne, czy pole ancestor, to jest złożona kolekcja. Pola złożone nie mogą być sortowalne, a właściwość sortowania musi mieć wartość null dla takich pól. Wartość domyślna sortowania dotyczy pól prostych o pojedynczej wartości, wartości false dla wielowartych pól prostych i wartości null dla pól złożonych. |
synonymMaps |
string[] |
Lista nazw synonimów map do skojarzenia z tym polem. Tej opcji można używać tylko z polami z możliwością wyszukiwania. Obecnie obsługiwana jest tylko jedna mapa synonimów dla każdego pola. Przypisanie mapy synonimów do pola zapewnia, że terminy zapytania przeznaczone dla tego pola są rozszerzane w czasie wykonywania zapytań przy użyciu reguł na mapie synonimów. Ten atrybut można zmienić w istniejących polach. Musi mieć wartość null lub pustą kolekcję dla pól złożonych. |
type |
Typ danych pola. |
|
vectorSearchProfile |
string |
Nazwa profilu wyszukiwania wektorowego, który określa algorytm i wektoryzator do użycia podczas wyszukiwania pola wektorowego. |
SearchFieldDataType
Definiuje typ danych pola w indeksie wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
Edm.Boolean |
string |
Wskazuje, że pole zawiera wartość logiczną (true lub false). |
Edm.ComplexType |
string |
Wskazuje, że pole zawiera co najmniej jeden złożony obiekt, który z kolei ma podpole innych typów. |
Edm.DateTimeOffset |
string |
Wskazuje, że pole zawiera wartość daty/godziny, w tym informacje o strefie czasowej. |
Edm.Double |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową IEEE o podwójnej precyzji. |
Edm.GeographyPoint |
string |
Wskazuje, że pole zawiera lokalizację geograficzną pod względem długości geograficznej i szerokości geograficznej. |
Edm.Int32 |
string |
Wskazuje, że pole zawiera 32-bitową liczbę całkowitą podpisaną. |
Edm.Int64 |
string |
Wskazuje, że pole zawiera 64-bitową liczbę całkowitą podpisaną. |
Edm.Single |
string |
Wskazuje, że pole zawiera liczbę zmiennoprzecinkową o pojedynczej precyzji. Jest to prawidłowe tylko w przypadku użycia z kolekcją (Edm.Single). |
Edm.String |
string |
Wskazuje, że pole zawiera ciąg. |
SearchIndex
Reprezentuje definicję indeksu wyszukiwania, która opisuje pola i zachowanie wyszukiwania indeksu.
Nazwa | Typ | Opis |
---|---|---|
@odata.etag |
string |
Element ETag indeksu. |
analyzers | LexicalAnalyzer[]: |
Analizatory indeksu. |
charFilters | CharFilter[]: |
Znaki filtruje indeks. |
corsOptions |
Opcje kontrolowania współużytkowania zasobów między źródłami (CORS) dla indeksu. |
|
defaultScoringProfile |
string |
Nazwa profilu oceniania, który ma być używany, jeśli w zapytaniu nie określono żadnego. Jeśli ta właściwość nie jest ustawiona, a w zapytaniu nie określono żadnego profilu oceniania, zostanie użyty domyślny ocenianie (tf-idf). |
encryptionKey |
Opis klucza szyfrowania utworzonego w usłudze Azure Key Vault. Ten klucz służy do zapewnienia dodatkowego poziomu szyfrowania danych magazynowanych, gdy chcesz mieć pełną pewność, że nikt, nawet firma Microsoft, nie może odszyfrować dane. Po zaszyfrowaniu danych zawsze pozostaną one zaszyfrowane. Usługa wyszukiwania zignoruje próby ustawienia tej właściwości na wartość null. Tę właściwość można zmienić zgodnie z potrzebami, jeśli chcesz obrócić klucz szyfrowania; Twoje dane nie będą miały wpływu. Szyfrowanie przy użyciu kluczy zarządzanych przez klienta nie jest dostępne dla bezpłatnych usług wyszukiwania i jest dostępne tylko dla płatnych usług utworzonych w dniu 1 stycznia 2019 r. lub po tym, jak 1 stycznia 2019 r. |
|
fields |
Pola indeksu. |
|
name |
string |
Nazwa indeksu. |
normalizers | LexicalNormalizer[]: |
Normalizacje indeksu. |
scoringProfiles |
Profile oceniania dla indeksu. |
|
semantic |
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne. |
|
similarity | Similarity: |
Typ algorytmu podobieństwa do użycia podczas oceniania i klasyfikowania dokumentów pasujących do zapytania wyszukiwania. Algorytm podobieństwa można zdefiniować tylko w czasie tworzenia indeksu i nie można go modyfikować w istniejących indeksach. Jeśli ma wartość null, używany jest algorytm ClassicSimilarity. |
suggesters |
Sugestory indeksu. |
|
tokenFilters |
TokenFilter[]:
|
Token filtruje indeks. |
tokenizers | LexicalTokenizer[]: |
Tokenizatory indeksu. |
vectorSearch |
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów. |
SearchIndexerDataNoneIdentity
Czyści właściwość tożsamości źródła danych.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tożsamości. |
SearchIndexerDataUserAssignedIdentity
Określa tożsamość źródła danych do użycia.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tożsamości. |
userAssignedIdentity |
string |
W pełni kwalifikowany identyfikator zasobu platformy Azure przypisanej przez użytkownika tożsamości zarządzanej zwykle w postaci "/subscriptions/12345678-1234-1234-1234-1234567890ab/resourceGroups/rg/providers/Microsoft.ManagedIdentity/userAssignedIdentities/myId", który powinien zostać przypisany do usługi wyszukiwania. |
SearchResourceEncryptionKey
Klucz szyfrowania zarządzanego przez klienta w usłudze Azure Key Vault. Klucze tworzone i zarządzane mogą służyć do szyfrowania lub odszyfrowywania danych magazynowanych, takich jak indeksy i mapy synonimów.
Nazwa | Typ | Opis |
---|---|---|
accessCredentials |
Opcjonalne poświadczenia usługi Azure Active Directory używane do uzyskiwania dostępu do usługi Azure Key Vault. Nie jest wymagane, jeśli zamiast tego używasz tożsamości zarządzanej. |
|
identity | SearchIndexerDataIdentity: |
Jawna tożsamość zarządzana do użycia dla tego klucza szyfrowania. Jeśli nie zostanie określona, a właściwość poświadczeń dostępu ma wartość null, zostanie użyta tożsamość zarządzana przypisana przez system. Po zaktualizowaniu zasobu, jeśli jawna tożsamość jest nieokreślona, pozostaje niezmieniona. Jeśli określono wartość "none", wartość tej właściwości zostanie wyczyszczone. |
keyVaultKeyName |
string |
Nazwa klucza usługi Azure Key Vault, który ma być używany do szyfrowania danych magazynowanych. |
keyVaultKeyVersion |
string |
Wersja klucza usługi Azure Key Vault używana do szyfrowania danych magazynowanych. |
keyVaultUri |
string |
Identyfikator URI Key Vault platformy Azure, nazywany również nazwą DNS, który zawiera klucz używany do szyfrowania danych magazynowanych. Przykładowy identyfikator URI może być . |
SemanticConfiguration
Definiuje określoną konfigurację, która ma być używana w kontekście możliwości semantycznych.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa konfiguracji semantycznej. |
prioritizedFields |
Opisuje pola tytułu, zawartości i słowa kluczowego, które mają być używane do semantycznego klasyfikowania, podpisów, wyróżnień i odpowiedzi. Należy ustawić co najmniej jedną z trzech właściwości podrzędnych (titleField, priorytizedKeywordsFields i priorytizedContentFields). |
SemanticField
Pole, które jest używane jako część konfiguracji semantycznej.
Nazwa | Typ | Opis |
---|---|---|
fieldName |
string |
SemanticSettings
Definiuje parametry indeksu wyszukiwania, który ma wpływ na możliwości semantyczne.
Nazwa | Typ | Opis |
---|---|---|
configurations |
Konfiguracje semantyczne dla indeksu. |
|
defaultConfiguration |
string |
Umożliwia ustawienie nazwy domyślnej konfiguracji semantycznej w indeksie, dzięki czemu opcjonalne jest przekazanie go jako parametru zapytania za każdym razem. |
ShingleTokenFilter
Tworzy kombinacje tokenów jako pojedynczy token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
filterToken |
string |
_ |
Ciąg do wstawienia dla każdej pozycji, w której nie ma tokenu. Wartość domyślna to podkreślenie ("_"). |
maxShingleSize |
integer |
2 |
Maksymalny rozmiar shingle. Wartość domyślna i minimalna to 2. |
minShingleSize |
integer |
2 |
Minimalny rozmiar shingle. Wartość domyślna i minimalna to 2. Wartość parametru maxShingleSize musi być mniejsza niż wartość parametru maxShingleSize. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
outputUnigrams |
boolean |
True |
Wartość wskazująca, czy strumień wyjściowy będzie zawierać tokeny wejściowe (unigramy), a także shingles. Wartość domyślna to „true”. |
outputUnigramsIfNoShingles |
boolean |
False |
Wartość wskazująca, czy wyprowadź unigramy dla tych czasów, gdy nie są dostępne żadne shingles. Ta właściwość ma pierwszeństwo, gdy parametr outputUnigrams jest ustawiony na wartość false. Wartość domyślna to false. |
tokenSeparator |
string |
Ciąg do użycia podczas łączenia sąsiednich tokenów w celu utworzenia shingle. Wartość domyślna to pojedyncza spacja (" "). |
SnowballTokenFilter
Filtr, który tworzy wyrazy przy użyciu stemmer wygenerowanego przez Snowball. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
language |
Język do użycia. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
SnowballTokenFilterLanguage
Język używany dla filtru tokenu Snowball.
Nazwa | Typ | Opis |
---|---|---|
armenian |
string |
Wybiera lucene Snowball stemming tokenizer dla Ormiański. |
basque |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla Basków. |
catalan |
string |
Wybiera lucene Snowball stemming tokenizer dla Katalończyka. |
danish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla Holendrów. |
english |
string |
Wybiera tokenizator lucene Snowball dla języka angielskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka francuskiego. |
german |
string |
Wybiera tokenizator lucene Snowball dla języka niemieckiego. |
german2 |
string |
Wybiera tokenizator macierzysty Lucene Snowball, który używa niemieckiego algorytmu wariantu. |
hungarian |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla Węgier. |
italian |
string |
Wybiera lucene Snowball macierzysty tokenizer dla Włoch. |
kp |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla Holendrów, który używa Kraaij-Pohlmann algorytmu macierzystego. |
lovins |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego Lovins. |
norwegian |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla Norwega. |
porter |
string |
Wybiera tokenizator macierzysty Lucene Snowball dla języka angielskiego, który używa algorytmu macierzystego portera. |
portuguese |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka portugalskiego. |
romanian |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka rumuńskiego. |
russian |
string |
Wybiera lucene Snowball stemming tokenizer dla Rosji. |
spanish |
string |
Wybiera tokenizator Lucene Snowball dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla szwedzkiego. |
turkish |
string |
Wybiera tokenizatora macierzystego Lucene Snowball dla języka tureckiego. |
StemmerOverrideTokenFilter
Zapewnia możliwość zastępowania innych filtrów ściągnięcia za pomocą niestandardowego ściągnięcia opartego na słowniku. Wszystkie terminy stemmed słownika zostaną oznaczone jako słowa kluczowe, aby nie były one stemmers w dół łańcucha. Należy umieścić przed wszelkimi filtrami macierzystymi. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
rules |
string[] |
Lista reguł macierzystych w następującym formacie: "word => stem", na przykład: "ran => run". |
StemmerTokenFilter
Filtr macierzysły specyficzny dla języka. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
language |
Język do użycia. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
StemmerTokenFilterLanguage
Język używany dla filtru tokenu stemmer.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera tokenizatora macierzystego Lucene dla języka arabskiego. |
armenian |
string |
Wybiera tokenizatora macierzystego Lucene dla Ormiańskiego. |
basque |
string |
Wybiera tokenizatora macierzystego Lucene dla baskijskich. |
brazilian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego (Brazylia). |
bulgarian |
string |
Wybiera tokenizatora macierzystego Lucene dla Bułgara. |
catalan |
string |
Wybiera tokenizatora macierzystego Lucene dla Katalończyka. |
czech |
string |
Wybiera tokenizatora macierzystego Lucene dla Czech. |
danish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka duńskiego. |
dutch |
string |
Wybiera tokenizatora macierzystego Lucene dla języka holenderskiego. |
dutchKp |
string |
Wybiera tokenizatora macierzystego Lucene dla języka holenderskiego, który używa Kraaij-Pohlmann algorytmu macierzystego. |
english |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego. |
finnish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka fińskiego. |
french |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego. |
galician |
string |
Wybiera tokenizatora macierzystego Lucene dla Galicji. |
german |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego. |
german2 |
string |
Wybiera tokenizatora macierzystego Lucene, który używa niemieckiego algorytmu wariantu. |
greek |
string |
Wybiera tokenizatora macierzystego Lucene dla języka greckiego. |
hindi |
string |
Wybiera tokenizatora macierzystego Lucene dla języka Hindi. |
hungarian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka węgierskiego. |
indonesian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka indonezyjskiego. |
irish |
string |
Wybiera tokenizatora macierzystego Lucene dla Irlandii. |
italian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka włoskiego. |
latvian |
string |
Wybiera tokenizatora macierzystego Lucene dla Łotewskiego. |
lightEnglish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który ma światło wynikające. |
lightFinnish |
string |
Wybiera tokenizatora macierzystego Lucene dla fińskiego, który robi światło wynikające. |
lightFrench |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego, który ma światło wynikające. |
lightGerman |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego, który ma światło wynikające. |
lightHungarian |
string |
Wybiera tokenizatora macierzystego Lucene dla Węgier, który robi światło wynikające. |
lightItalian |
string |
Wybiera lucene stemming tokenizer dla Włocha, który robi światło wynika. |
lightNorwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który robi lekkie łodygi. |
lightNynorsk |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Nynorsk), który robi lekkie łodygi. |
lightPortuguese |
string |
Wybiera tokenizatora macierzystego Lucene dla portugalskiego, który robi lekkie powstrzymanie. |
lightRussian |
string |
Wybiera lucene stemming tokenizer dla Rosjan, który robi lekkie następstwa. |
lightSpanish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka hiszpańskiego, który robi lekkie następstwa. |
lightSwedish |
string |
Wybiera tokenizatora macierzystego Lucene dla szwedzkiego, który robi lekkie następstwa. |
lovins |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który używa algorytmu macierzystego Lovins. |
minimalEnglish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka angielskiego, który ma minimalny wynik. |
minimalFrench |
string |
Wybiera tokenizatora macierzystego Lucene dla języka francuskiego, który ma minimalny wynik. |
minimalGalician |
string |
Wybiera tokenizatora macierzystego Lucene dla Galicji, który ma minimalne następstwa. |
minimalGerman |
string |
Wybiera tokenizatora macierzystego Lucene dla języka niemieckiego, który ma minimalny wynik. |
minimalNorwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Bokmål), który ma minimalne następstwa. |
minimalNynorsk |
string |
Wybiera tokenizatora macierzystego Lucene dla norweskiego (Nynorsk), który ma minimalne łodygi. |
minimalPortuguese |
string |
Wybiera tokenizatora macierzystego Lucene dla portugalskiego, który ma minimalny wynik. |
norwegian |
string |
Wybiera tokenizatora macierzystego Lucene dla języka norweskiego (Bokmål). |
porter2 |
string |
Wybiera moduł tokenizatora macierzystego Lucene dla języka angielskiego, który używa algorytmu macierzystego Porter2. |
portuguese |
string |
Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego. |
portugueseRslp |
string |
Wybiera tokenizatora macierzystego Lucene dla języka portugalskiego, który używa algorytmu macierzystego RSLP. |
possessiveEnglish |
string |
Wybiera tokenizator Lucene dla języka angielskiego, który usuwa końcowych opętaczy ze słów. |
romanian |
string |
Wybiera tokenizatora macierzystego Lucene dla Rumunii. |
russian |
string |
Wybiera tokenizatora macierzystego Lucene dla rosjanina. |
sorani |
string |
Wybiera tokenizatora macierzystego Lucene dla Sorani. |
spanish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka hiszpańskiego. |
swedish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka szwedzkiego. |
turkish |
string |
Wybiera tokenizatora macierzystego Lucene dla języka tureckiego. |
StopAnalyzer
Dzieli tekst na litery inne niż litery; Stosuje małe litery i filtry tokenu stopword. Ten analizator jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Opis |
---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ analizatora. |
name |
string |
Nazwa analizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
stopwords |
string[] |
Lista stopwords. |
StopwordsList
Identyfikuje wstępnie zdefiniowaną listę stopwords specyficznych dla języka.
Nazwa | Typ | Opis |
---|---|---|
arabic |
string |
Wybiera listę stopword dla języka arabskiego. |
armenian |
string |
Wybiera listę stopwordu dla ormiańskiego. |
basque |
string |
Wybiera listę stopwordu dla baskijskich. |
brazilian |
string |
Wybiera listę stopwordu dla portugalskiego (Brazylia). |
bulgarian |
string |
Wybiera listę stopwordu dla języka bułgarskiego. |
catalan |
string |
Wybiera listę stopwordu dla Katalonii. |
czech |
string |
Wybiera listę stopword dla języka czeskiego. |
danish |
string |
Wybiera listę stopwordu dla języka duńskiego. |
dutch |
string |
Wybiera listę stopwordu dla holenderskiego. |
english |
string |
Wybiera listę stopword dla języka angielskiego. |
finnish |
string |
Wybiera listę stopwordu dla języka fińskiego. |
french |
string |
Wybiera listę stopword dla języka francuskiego. |
galician |
string |
Wybiera listę stopwordu dla Galicji. |
german |
string |
Wybiera listę stopword dla języka niemieckiego. |
greek |
string |
Wybiera listę stopword dla języka greckiego. |
hindi |
string |
Wybiera listę stopword dla języka Hindi. |
hungarian |
string |
Wybiera listę stopword dla języka węgierskiego. |
indonesian |
string |
Wybiera listę stopword dla języka indonezyjskiego. |
irish |
string |
Wybiera listę stopword dla irlandii. |
italian |
string |
Wybiera listę stopwordu dla języka włoskiego. |
latvian |
string |
Wybiera listę stopwordu dla Łotewskiego. |
norwegian |
string |
Wybiera listę stopwordu dla języka norweskiego. |
persian |
string |
Wybiera listę stopwordu perskiego. |
portuguese |
string |
Wybiera listę stopword dla języka portugalskiego. |
romanian |
string |
Wybiera listę stopwordu dla języka rumuńskiego. |
russian |
string |
Wybiera listę stopwordu dla języka rosyjskiego. |
sorani |
string |
Wybiera listę stopword dla elementu Sorani. |
spanish |
string |
Wybiera listę stopword dla języka hiszpańskiego. |
swedish |
string |
Wybiera listę stopwordu dla języka szwedzkiego. |
thai |
string |
Wybiera listę stopword dla języka tajskiego. |
turkish |
string |
Wybiera listę stopwordu dla języka tureckiego. |
StopwordsTokenFilter
Usuwa słowa zatrzymania ze strumienia tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
ignoreCase |
boolean |
False |
Wartość wskazująca, czy ignorować wielkość liter. Jeśli wartość true, wszystkie wyrazy są najpierw konwertowane na małe litery. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
removeTrailing |
boolean |
True |
Wartość wskazująca, czy ignorować ostatni termin wyszukiwania, jeśli jest to wyraz zatrzymania. Wartość domyślna to „true”. |
stopwords |
string[] |
Lista stopwords. Nie można ustawić tej właściwości i właściwości listy stopwords. |
|
stopwordsList | english |
Wstępnie zdefiniowana lista stopwords do użycia. Nie można ustawić tej właściwości i właściwości stopwords. Wartość domyślna to angielski. |
Suggester
Definiuje sposób stosowania interfejsu API sugerowanego do grupy pól w indeksie.
Nazwa | Typ | Opis |
---|---|---|
name |
string |
Nazwa sugestora. |
searchMode |
Wartość wskazująca możliwości sugestora. |
|
sourceFields |
string[] |
Lista nazw pól, do których ma zastosowanie sugestor. Każde pole musi być przeszukiwalne. |
SuggesterSearchMode
Wartość wskazująca możliwości sugestora.
Nazwa | Typ | Opis |
---|---|---|
analyzingInfixMatching |
string |
Pasuje do kolejnych całych terminów i prefiksów w polu. Na przykład w polu "Najszybszy brązowy lis" zapytania "szybkie" i "najszybsze brwi" będą zgodne. |
SynonymTokenFilter
Dopasuje synonimy pojedyncze lub wieloznane w strumieniu tokenu. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
expand |
boolean |
True |
Wartość wskazująca, czy wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie. Jeśli wartość true, wszystkie wyrazy na liście synonimów (jeśli => notacja nie jest używana) będą mapować się na siebie nawzajem. Poniższa lista: niesamowite, niewiarygodne, wspaniałe, niesamowite jest równoważne: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite, niewiarygodne, niesamowite, niewiarygodne, wspaniałe, niesamowite. Jeśli fałsz, poniższa lista: niesamowita, niewiarygodna, wspaniała, niesamowita będzie odpowiednikiem: niesamowite, niewiarygodne, wspaniałe, niesamowite => niesamowite. Wartość domyślna to „true”. |
ignoreCase |
boolean |
False |
Wartość wskazująca, czy należy złożyć wielkość liter danych wejściowych w celu dopasowania. Wartość domyślna to false. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
synonyms |
string[] |
Lista synonimów w jednym z dwóch formatów: 1. niesamowite, niewiarygodne, wspaniałe => niesamowite - wszystkie terminy po lewej stronie => symbol zostaną zastąpione wszystkimi terminami po prawej stronie; 2. niesamowita, niewiarygodna, wspaniała, niesamowita - rozdzielona przecinkami lista równoważnych słów. Ustaw opcję rozwijania, aby zmienić sposób interpretowania tej listy. |
TagScoringFunction
Definiuje funkcję, która zwiększa wyniki dokumentów z wartościami ciągów pasującymi do danej listy tagów.
Nazwa | Typ | Opis |
---|---|---|
boost |
number |
Mnożnik dla nieprzetworzonego wyniku. Musi być liczbą dodatnią nie równą 1,0. |
fieldName |
string |
Nazwa pola używanego jako dane wejściowe funkcji oceniania. |
interpolation |
Wartość wskazująca sposób interpolacji między wynikami dokumentu; wartość domyślna to "Linear". |
|
tag |
Wartości parametrów dla funkcji oceniania tagów. |
|
type |
string:
tag |
Wskazuje typ funkcji do użycia. Prawidłowe wartości obejmują wielkość, świeżość, odległość i tag. Typ funkcji musi mieć małe litery. |
TagScoringParameters
Udostępnia wartości parametrów funkcji oceniania tagów.
Nazwa | Typ | Opis |
---|---|---|
tagsParameter |
string |
Nazwa parametru przekazanego w zapytaniach wyszukiwania, aby określić listę tagów do porównania z polem docelowym. |
TextWeights
Definiuje wagi w polach indeksu, dla których dopasowania powinny zwiększyć ocenianie w zapytaniach wyszukiwania.
Nazwa | Typ | Opis |
---|---|---|
weights |
object |
Słownik wag poszczególnych pól zwiększający ocenianie dokumentów. Klucze to nazwy pól, a wartości to wagi dla każdego pola. |
TokenCharacterKind
Reprezentuje klasy znaków, na których może działać filtr tokenu.
Nazwa | Typ | Opis |
---|---|---|
digit |
string |
Przechowuje cyfry w tokenach. |
letter |
string |
Przechowuje litery w tokenach. |
punctuation |
string |
Utrzymuje interpunkcję w tokenach. |
symbol |
string |
Przechowuje symbole w tokenach. |
whitespace |
string |
Zachowuje odstępy w tokenach. |
TokenFilterName
Definiuje nazwy wszystkich filtrów tokenów obsługiwanych przez wyszukiwarkę.
TruncateTokenFilter
Obcina terminy do określonej długości. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
length |
integer |
300 |
Długość, w której terminy zostaną obcięte. Wartość domyślna i maksymalna to 300. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
UaxUrlEmailTokenizer
Tokenizuje adresy URL i wiadomości e-mail jako jeden token. Ten tokenizer jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ tokenizatora. |
|
maxTokenLength |
integer |
255 |
Maksymalna długość tokenu. Wartość domyślna to 255. Tokeny dłuższe niż maksymalna długość są podzielone. Maksymalna długość tokenu, która może być używana, to 300 znaków. |
name |
string |
Nazwa tokenizatora. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się tylko znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
UniqueTokenFilter
Filtruje tokeny z tym samym tekstem co poprzedni token. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
onlyOnSamePosition |
boolean |
False |
Wartość wskazująca, czy usunąć duplikaty tylko w tej samej pozycji. Wartość domyślna to false. |
VectorSearch
Zawiera opcje konfiguracji związane z wyszukiwaniem wektorów.
Nazwa | Typ | Opis |
---|---|---|
algorithms | VectorSearchAlgorithmConfiguration[]: |
Zawiera opcje konfiguracji specyficzne dla algorytmu używanego podczas indeksowania lub wykonywania zapytań. |
profiles |
Definiuje kombinacje konfiguracji do użycia z wyszukiwaniem wektorów. |
|
vectorizers | VectorSearchVectorizer[]: |
Zawiera opcje konfiguracji dotyczące wektorowania zapytań wektorów tekstowych. |
VectorSearchAlgorithmKind
Algorytm używany do indeksowania i wykonywania zapytań.
Nazwa | Typ | Opis |
---|---|---|
exhaustiveKnn |
string |
Wyczerpujący algorytm KNN, który będzie wykonywać wyszukiwanie siłowe. |
hnsw |
string |
HNSW (Hierarchiczna nawigacja mały świat), typ przybliżonego algorytmu najbliższych sąsiadów. |
VectorSearchAlgorithmMetric
Metryka podobieństwa do użycia dla porównań wektorów.
Nazwa | Typ | Opis |
---|---|---|
cosine |
string |
|
dotProduct |
string |
|
euclidean |
string |
VectorSearchProfile
Definiuje kombinację konfiguracji do użycia z wyszukiwaniem wektorowym.
Nazwa | Typ | Opis |
---|---|---|
algorithm |
string |
Nazwa konfiguracji algorytmu wyszukiwania wektorowego, która określa algorytm i parametry opcjonalne. |
name |
string |
Nazwa, która ma być skojarzyna z tym konkretnym profilem wyszukiwania wektorowego. |
vectorizer |
string |
Nazwa rodzaju metody wektoryzacji konfigurowanej do użycia z wyszukiwaniem wektorowym. |
VectorSearchVectorizerKind
Metoda wektoryzacji, która ma być używana w czasie wykonywania zapytania.
Nazwa | Typ | Opis |
---|---|---|
azureOpenAI |
string |
Generowanie osadzania przy użyciu zasobu usługi Azure OpenAI w czasie wykonywania zapytań. |
customWebApi |
string |
Generowanie osadzania przy użyciu niestandardowego internetowego punktu końcowego w czasie wykonywania zapytań. |
WordDelimiterTokenFilter
Dzieli wyrazy na słowa podrzędne i wykonuje opcjonalne przekształcenia w grupach podrzędnych. Ten filtr tokenu jest implementowany przy użyciu platformy Apache Lucene.
Nazwa | Typ | Wartość domyślna | Opis |
---|---|---|---|
@odata.type |
string:
#Microsoft. |
Fragment identyfikatora URI określający typ filtru tokenu. |
|
catenateAll |
boolean |
False |
Wartość wskazująca, czy wszystkie części podwordu zostaną podzielone. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search-1" zmieni się na "AzureSearch1". Wartość domyślna to false. |
catenateNumbers |
boolean |
False |
Wartość wskazująca, czy maksymalna liczba przebiegów części będzie podzielona na kategoryzowane. Jeśli na przykład ustawiono wartość true, wartość "1–2" zostanie ustawiona na wartość "12". Wartość domyślna to false. |
catenateWords |
boolean |
False |
Wartość wskazująca, czy maksymalna liczba uruchomień części wyrazów zostanie podzielona na kategoryzowane. Jeśli na przykład ustawiono wartość true, wartość "Azure-Search" stanie się "AzureSearch". Wartość domyślna to false. |
generateNumberParts |
boolean |
True |
Wartość wskazująca, czy należy wygenerować podsieci liczbowe. Wartość domyślna to „true”. |
generateWordParts |
boolean |
True |
Wartość wskazująca, czy należy wygenerować wyrazy części. Jeśli jest ustawiona, powoduje wygenerowanie części wyrazów; na przykład "AzureSearch" staje się "Azure" "Search". Wartość domyślna to „true”. |
name |
string |
Nazwa filtru tokenu. Musi zawierać tylko litery, cyfry, spacje, kreski lub podkreślenia, mogą zaczynać i kończyć się wyłącznie znakami alfanumerycznymi i jest ograniczona do 128 znaków. |
|
preserveOriginal |
boolean |
False |
Wartość wskazująca, czy oryginalne wyrazy zostaną zachowane i dodane do listy podordów. Wartość domyślna to false. |
protectedWords |
string[] |
Lista tokenów, które mają być chronione przed ograniczeniem. |
|
splitOnCaseChange |
boolean |
True |
Wartość wskazująca, czy należy podzielić wyrazy na caseChange. Jeśli na przykład ustawiono wartość true, wyrażenie "AzureSearch" stanie się "Azure" "Search". Wartość domyślna to „true”. |
splitOnNumerics |
boolean |
True |
Wartość wskazująca, czy należy podzielić liczby. Jeśli na przykład ustawiono wartość true, "Azure1Search" stanie się "Azure" "1" "Wyszukaj". Wartość domyślna to „true”. |
stemEnglishPossessive |
boolean |
True |
Wartość wskazująca, czy usunąć końcowe "s" dla każdego podordu. Wartość domyślna to „true”. |