Taal analyse functies toevoegen aan teken reeks velden in een Azure Cognitive Search-indexAdd language analyzers to string fields in an Azure Cognitive Search index

Een taal analyse is een specifiek type tekst analyse dat lexicale analyses uitvoert met behulp van de taal kundige regels van de doel taal.A language analyzer is a specific type of text analyzer that performs lexical analysis using the linguistic rules of the target language. Elk doorzoekbaar veld heeft een eigenschap Analyzer .Every searchable field has an analyzer property. Als uw index vertaalde teken reeksen bevat, zoals afzonderlijke velden voor Engelse en Chinese tekst, kunt u taal analysen opgeven voor elk veld om toegang te krijgen tot de uitgebreide taal mogelijkheden van die analyse functies.If your index contains translated strings, such as separate fields for English and Chinese text, you could specify language analyzers on each field to access the rich linguistic capabilities of those analyzers.

Azure Cognitive Search ondersteunt 35-analyse functies die worden ondersteund door Lucene, en 50-analyse functies die worden ondersteund door een eigen micro soft-technologie voor natuurlijke taal verwerking die wordt gebruikt in Office en Bing.Azure Cognitive Search supports 35 analyzers backed by Lucene, and 50 analyzers backed by proprietary Microsoft natural language processing technology used in Office and Bing.

Analyse functies vergelijkenComparing analyzers

Sommige ontwikkel aars hebben mogelijk de voor keur aan een bekendere, eenvoudige, open-source oplossing van Lucene.Some developers might prefer the more familiar, simple, open-source solution of Lucene. De taal analysen van Lucene zijn sneller, maar de micro soft-analyse functies hebben geavanceerde mogelijkheden, zoals lemmatisering, het ontsamenen van woorden (in talen zoals Duits, Deens, Nederlands, Zweeds, Noors, Estland, finish, Hong aars, Slowaaks) en entiteits herkenning (Url's, e-mails, datums, cijfers).Lucene language analyzers are faster, but the Microsoft analyzers have advanced capabilities, such as lemmatization, word decompounding (in languages like German, Danish, Dutch, Swedish, Norwegian, Estonian, Finish, Hungarian, Slovak) and entity recognition (URLs, emails, dates, numbers). Voer, indien mogelijk, vergelijkingen uit van de micro soft-en lucene-analyse functies om te bepalen welke een beter aansluit.If possible, you should run comparisons of both the Microsoft and Lucene analyzers to decide which one is a better fit.

Indexeren met micro soft-analyse functies is gemiddeld twee tot drie keer langzamer dan hun bijbehorende Lucene, afhankelijk van de taal.Indexing with Microsoft analyzers is on average two to three times slower than their Lucene equivalents, depending on the language. Zoek prestaties moeten niet significant worden beïnvloed voor de gemiddelde grootte van query's.Search performance should not be significantly affected for average size queries.

Engelse analyse functiesEnglish analyzers

De standaard-Analyzer is standaard-Lucene, die goed werkt voor het Engels, maar mogelijk niet ook en de Engelse analyse functie van Lucene of het Engelse analyse beleid van micro soft.The default analyzer is Standard Lucene, which works well for English, but perhaps not as well as Lucene's English analyzer or Microsoft's English analyzer.

  • De Engelse Analyzer van Lucene breidt de Standard Analyzer uit.Lucene's English analyzer extends the standard analyzer. Hiermee verwijdert u de possessives (van het begin) van woorden, wordt de functie voor het verbreken van de splitsing van het schema en de Engelse stop woorden verwijderd.It removes possessives (trailing 's) from words, applies stemming as per Porter Stemming algorithm, and removes English stop words.

  • De Engelse Analyzer van micro soft voert lemmatisering uit in plaats van de ontleding.Microsoft's English analyzer performs lemmatization instead of stemming. Dit betekent dat het verbogen en onregelmatige woord vormen aanzienlijk beter kan worden verwerkt, wat resulteert in meer relevante zoek resultatenThis means it can handle inflected and irregular word forms much better which results in more relevant search results

Analyse functies configurerenConfiguring analyzers

Taal analysen worden gebruikt als-is.Language analyzers are used as-is. Voor elk veld in de index definitie kunt u de eigenschap Analyzer instellen op een analyse naam die de taal en talen stack (micro soft of lucene) aangeeft.For each field in the index definition, you can set the analyzer property to an analyzer name that specifies the language and linguistics stack (Microsoft or Lucene). Dezelfde analyse wordt toegepast bij het indexeren en zoeken naar dat veld.The same analyzer will be applied when indexing and searching for that field. U kunt bijvoorbeeld afzonderlijke velden voor Engelse, Franse en Spaanse Hotel beschrijvingen hebben die naast elkaar in dezelfde index bestaan.For example, you can have separate fields for English, French, and Spanish hotel descriptions that exist side by side in the same index.

Notitie

Het is niet mogelijk om een andere taal analyse te gebruiken tijdens de indexerings tijd dan bij het opvragen van een veld.It is not possible to use a different language analyzer at indexing time than at query time for a field. Deze mogelijkheid is gereserveerd voor aangepaste analysefuncties.That capability is reserved for custom analyzers. Als u daarom probeert de eigenschappen searchAnalyzer of indexAnalyzer in te stellen op de naam van een taal analyse, retourneert de rest API een fout bericht.For this reason, if you try to set the searchAnalyzer or indexAnalyzer properties to the name of a language analyzer, the REST API will return an error response. U moet in plaats daarvan de eigenschap Analyzer gebruiken.You must use the analyzer property instead.

Gebruik de para meter searchFields om op te geven in welke taal specifiek veld moet worden gezocht in uw query's.Use the searchFields query parameter to specify which language-specific field to search against in your queries. U kunt query voorbeelden bekijken die de eigenschap Analyzer in Zoek documentenbevatten.You can review query examples that include the analyzer property in Search Documents.

Zie Create index (Azure Cognitive Search REST API)voor meer informatie over eigenschappen van de index.For more information about index properties, see Create Index (Azure Cognitive Search REST API). Zie voor meer informatie over het analyseren van Azure Cognitive Search analyse functies in azure Cognitive Search.For more information about analysis in Azure Cognitive Search, see Analyzers in Azure Cognitive Search.

Language Analyzer-lijstLanguage analyzer list

Hieronder ziet u de lijst met ondersteunde talen in combi natie met de namen van Lucene en micro soft Analyzer.Below is the list of supported languages together with Lucene and Microsoft analyzer names.

TaalLanguage Naam van micro soft AnalyzerMicrosoft Analyzer Name Naam van Lucene AnalyzerLucene Analyzer Name
ArabischArabic AR. micro softar.microsoft AR. lucenear.lucene
ArmeensArmenian HY. lucenehy.lucene
BengaleseBangla bn. micro softbn.microsoft
BaskischBasque EU. luceneeu.lucene
BulgaarsBulgarian bg. micro softbg.microsoft bg. lucenebg.lucene
CatalaansCatalan ca. micro softca.microsoft ca. luceneca.lucene
Vereenvoudigd ChineesChinese Simplified zh-Hans. micro softzh-Hans.microsoft zh-Hans. lucenezh-Hans.lucene
Traditioneel ChineesChinese Traditional zh-hant. micro softzh-Hant.microsoft zh-hant. lucenezh-Hant.lucene
KroatischCroatian HR. micro softhr.microsoft
TsjechischCzech CS. micro softcs.microsoft CS. lucenecs.lucene
DeensDanish da. micro softda.microsoft da. luceneda.lucene
NederlandsDutch nl. micro softnl.microsoft nl. lucenenl.lucene
EngelsEnglish en. micro soften.microsoft en. luceneen.lucene
EstsEstonian et. micro softet.microsoft
FinsFinnish fi. micro softfi.microsoft fi. lucenefi.lucene
FransFrench fr. micro softfr.microsoft fr. lucenefr.lucene
GalicischGalician gl. lucenegl.lucene
DuitsGerman de. micro softde.microsoft de. lucenede.lucene
GrieksGreek El. micro softel.microsoft El. luceneel.lucene
GujaratiGujarati Gu. micro softgu.microsoft
HebreeuwsHebrew he. micro softhe.microsoft
HindiHindi Hallo. micro softhi.microsoft Hallo. lucenehi.lucene
HongaarsHungarian hu. micro softhu.microsoft hu. lucenehu.lucene
IJslandsIcelandic is. micro softis.microsoft
Indonesisch (Bahasa)Indonesian (Bahasa) id. micro softid.microsoft id. luceneid.lucene
IersIrish Ga. lucenega.lucene
ItaliaansItalian it. micro softit.microsoft it. luceneit.lucene
JapansJapanese Ja. micro softja.microsoft Ja. luceneja.lucene
KannadaKannada kn. micro softkn.microsoft
KoreaansKorean ko. micro softko.microsoft ko. luceneko.lucene
LetsLatvian LV. micro softlv.microsoft LV. lucenelv.lucene
LitouwsLithuanian lt. micro softlt.microsoft
MalajalamMalayalam ml. micro softml.microsoft
Maleis (Latijns)Malay (Latin) MS. micro softms.microsoft
MarathiMarathi Mr. micro softmr.microsoft
NorwegianNorwegian NB. micro softnb.microsoft No. luceneno.lucene
PerzischPersian FA. lucenefa.lucene
PoolsPolish pl. micro softpl.microsoft pl. lucenepl.lucene
Portugees (Brazilië)Portuguese (Brazil) pt-br. micro softpt-Br.microsoft pt-br. lucenept-Br.lucene
Portugees (Portugal)Portuguese (Portugal) pt-pt. micro softpt-Pt.microsoft pt-pt. lucenept-Pt.lucene
PunjabiPunjabi pa. micro softpa.microsoft
RoemeensRomanian ro. micro softro.microsoft ro. lucenero.lucene
RussischRussian ru. micro softru.microsoft ru. luceneru.lucene
Servisch (Cyrillisch)Serbian (Cyrillic) SR-Cyrillisch. micro softsr-cyrillic.microsoft
Servisch (Latijns)Serbian (Latin) SR-Latijn. micro softsr-latin.microsoft
SlowaaksSlovak SK. micro softsk.microsoft
SloveensSlovenian SL. micro softsl.microsoft
SpaansSpanish es. micro softes.microsoft es. lucenees.lucene
ZweedsSwedish SV. micro softsv.microsoft SV. lucenesv.lucene
TamilTamil ta. micro softta.microsoft
TeluguTelugu te. micro softte.microsoft
ThaiThai th. micro softth.microsoft th. luceneth.lucene
TurksTurkish tr. micro softtr.microsoft tr. lucenetr.lucene
OekraïensUkrainian UK. micro softuk.microsoft
UrduUrdu uw. micro softur.microsoft
VietnameesVietnamese VI. micro softvi.microsoft

Alle analyse functies met namen die zijn gekoppeld aan lucene , worden aangedreven door de taal Analyseers van Apache Lucene.All analyzers with names annotated with Lucene are powered by Apache Lucene's language analyzers.

Zie ookSee also