Nyelvi elemzők hozzáadása karakterlánc-mezőkhöz Azure Cognitive Search indexbenAdd language analyzers to string fields in an Azure Cognitive Search index

A Language Analyzer egy adott típusú szöveges elemző , amely lexikális analízist hajt végre a célnyelv nyelvi szabályainak használatával.A language analyzer is a specific type of text analyzer that performs lexical analysis using the linguistic rules of the target language. Minden kereshető mező rendelkezik egy Analyzer tulajdonsággal.Every searchable field has an analyzer property. Ha a tartalma lefordított karakterláncokból áll, például az angol és a Kínai szöveg különálló mezőiből, megadhatja az egyes mezők nyelvi elemzőit az elemzők gazdag nyelvi képességeinek eléréséhez.If your content consists of translated strings, such as separate fields for English and Chinese text, you could specify language analyzers on each field to access the rich linguistic capabilities of those analyzers.

Mikor kell nyelvi elemzőt használniWhen to use a language analyzer

Ha a Word vagy a mondat struktúrájának ismerete, a szöveg elemzésekor figyelembe kell vennie egy nyelvi elemzőt.You should consider a language analyzer when awareness of word or sentence structure adds value to text parsing. Gyakori példa a szabálytalan műveleti űrlapok ("Bring" és "benyújtott"), vagy a többes számú főnevek ("egerek" és "egér") társítása.A common example is the association of irregular verb forms ("bring" and "brought) or plural nouns ("mice" and "mouse"). Nyelvi tájékoztatás nélkül ezeket a karakterláncokat csak a fizikai jellemzőkre elemezzük, ami nem fogja tudni megfogni a kapcsolódást.Without linguistic awareness, these strings are parsed on physical characteristics alone, which fails to catch the connection. Mivel a nagy méretű adathalmazok nagyobb valószínűséggel rendelkeznek a tartalommal, a leírásokból, felülvizsgálatokból és összegzésből álló mezők jó választást jelentenek a nyelvi elemzők számára.Since large chunks of text are more likely to have this content, fields consisting of descriptions, reviews, or summaries are good candidates for a language analyzer.

Érdemes figyelembe venni a nyelvi elemzőket is, ha a tartalom nem nyugati nyelvű karakterláncokból áll.You should also consider language analyzers when content consists of non-Western language strings. Habár az alapértelmezett analizátor nyelvtől független, a szóközök és speciális karakterek (kötőjelek és perjelek) használata a karakterláncok elkülönítésére általában a nyugati nyelvekre vonatkozik, mint a nem nyugatiak.While the default analyzer is language-agnostic, the concept of using spaces and special characters (hyphens and slashes) to separate strings tends is more applicable to Western languages than non-Western ones.

Például kínai, Japán, Koreai (CJK) és más ázsiai nyelveken a szóköz nem feltétlenül a szó elválasztója.For example, in Chinese, Japanese, Korean (CJK), and other Asian languages, a space is not necessarily a word delimiter. Vegye figyelembe a következő japán karakterláncot.Consider the following Japanese string. Mivel nem tartalmaz szóközöket, egy nyelvtől független elemző valószínűleg egyetlen tokenként elemezni fogja a teljes karakterláncot, ha valójában a karakterlánc valójában egy kifejezés.Because it has no spaces, a language-agnostic analyzer would likely analyze the entire string as one token, when in fact the string is actually a phrase.

これは私たちの銀河系の中ではもっとも重く明るいクラスの球状星団です。
(This is the heaviest and brightest group of spherical stars in our galaxy.)

A fenti példában egy sikeres lekérdezésnek tartalmaznia kell a teljes tokent, vagy egy részleges tokent, amely utótag helyettesítő karaktert használ, ami nem természetes és nem korlátozó keresési élményt eredményez.For the example above, a successful query would have to include the full token, or a partial token using a suffix wildcard, resulting in an unnatural and limiting search experience.

Jobb megoldás, ha egyéni szavakat keres: 明るい (Bright), 私たちの (mi), 銀河系 (Galaxy).A better experience is to search for individual words: 明るい (Bright), 私たちの (Our), 銀河系 (Galaxy). A Cognitive Searchban elérhető japán elemzők egyikének használata nagyobb valószínűséggel oldja meg ezt a viselkedést, mivel ezek az elemzők jobban illeszkednek a szöveg részleteit leíró szavakba a célként megadott nyelven.Using one of the Japanese analyzers available in Cognitive Search is more likely to unlock this behavior because those analyzers are better equipped at splitting the chunk of text into meaningful words in the target language.

A Lucene és a Microsoft-elemzők összehasonlításaComparing Lucene and Microsoft Analyzers

Az Azure Cognitive Search 35 támogatja a Lucene által támogatott nyelvi elemzőket, valamint az Office és a Bing által használt, a Microsoft természetes nyelvi feldolgozási technológiája által támogatott 50 nyelvi elemzőket.Azure Cognitive Search supports 35 language analyzers backed by Lucene, and 50 language analyzers backed by proprietary Microsoft natural language processing technology used in Office and Bing.

Előfordulhat, hogy egyes fejlesztők inkább a Lucene ismerős, egyszerű és nyílt forráskódú megoldását részesítik előnyben.Some developers might prefer the more familiar, simple, open-source solution of Lucene. A Lucene nyelvi elemzői gyorsabbak, de a Microsoft-elemzők fejlett funkciókkal rendelkeznek, például a morfológiai elemzéshez, a szavak összetételét (például a német, a dán, a holland, a svéd, a norvég, az észt, a Finish, a magyar és a szlovák nyelv) és az entitások felismerését (URL-címek, e-mailek, dátumokLucene language analyzers are faster, but the Microsoft analyzers have advanced capabilities, such as lemmatization, word decompounding (in languages like German, Danish, Dutch, Swedish, Norwegian, Estonian, Finish, Hungarian, Slovak) and entity recognition (URLs, emails, dates, numbers). Ha lehetséges, a Microsoft és a Lucene elemzők összehasonlítását is el kell végeznie, hogy eldöntse, melyik egy jobb illeszkedés.If possible, you should run comparisons of both the Microsoft and Lucene analyzers to decide which one is a better fit.

A Microsoft-elemzők indexelése a nyelvtől függően a Lucene egyenértékűként átlagosan két-háromszor lassabban történik.Indexing with Microsoft analyzers is on average two to three times slower than their Lucene equivalents, depending on the language. A keresési teljesítmény nem lehet jelentős hatással az átlagos méretű lekérdezéseknél.Search performance should not be significantly affected for average size queries.

Angol analizátorokEnglish analyzers

Az alapértelmezett elemző a standard Lucene, amely az angol nyelvhez jól működik, de talán nem, valamint a Lucene angol analizátor vagy a Microsoft angol analizátora.The default analyzer is Standard Lucene, which works well for English, but perhaps not as well as Lucene's English analyzer or Microsoft's English analyzer.

  • A Lucene angol analizátora kiterjeszti a standard Analyzert.Lucene's English analyzer extends the standard analyzer. Eltávolítja a birtokosok (záró) szavakat a szavakból, és a porton kívüli algoritmust alkalmazza, és eltávolítja az angol leállítási szavakat.It removes possessives (trailing 's) from words, applies stemming as per Porter Stemming algorithm, and removes English stop words.

  • A Microsoft angol Analyzer morfológiai elemzéshez hajt végre a művelet helyett.Microsoft's English analyzer performs lemmatization instead of stemming. Ez azt jelenti, hogy az ragozott és a szabálytalan Word-űrlapokat sokkal jobban kezelheti, ami több releváns keresési eredményt eredményezThis means it can handle inflected and irregular word forms much better which results in more relevant search results

Elemzők konfigurálásaConfiguring analyzers

A nyelvi elemzők a következőképpen használhatók:.Language analyzers are used as-is. Az index definíciójának minden mezőjénél megadhatja az analizátor tulajdonságot egy Analyzer-névre, amely megadja a nyelv és a nyelvi készlet (Microsoft vagy Lucene) értékét.For each field in the index definition, you can set the analyzer property to an analyzer name that specifies the language and linguistics stack (Microsoft or Lucene). Ugyanez az analizátor lesz alkalmazva a mező indexeléséhez és kereséséhez.The same analyzer will be applied when indexing and searching for that field. Megadhatja például, hogy az angol, a francia és a spanyol nyelvű szállodai leírások külön mezői legyenek, amelyek ugyanabban az indexben vannak egymás mellett.For example, you can have separate fields for English, French, and Spanish hotel descriptions that exist side by side in the same index.

Megjegyzés

Egy adott mezőnél nem lehet más nyelvi elemzőt használni, mint a lekérdezés időpontjában.It is not possible to use a different language analyzer at indexing time than at query time for a field. Ez a képesség Egyéni elemzőkszámára van fenntartva.That capability is reserved for custom analyzers. Ezért ha a searchAnalyzer vagy a indexAnalyzer tulajdonságot a Language Analyzer nevére próbálja beállítani, a REST API hibaüzenetet ad vissza.For this reason, if you try to set the searchAnalyzer or indexAnalyzer properties to the name of a language analyzer, the REST API will return an error response. Ehelyett a Analyzer tulajdonságot kell használnia.You must use the analyzer property instead.

A searchFields lekérdezési paraméterrel megadásával meghatározhatja, hogy melyik nyelvspecifikus mezőt szeretné keresni a lekérdezésekben.Use the searchFields query parameter to specify which language-specific field to search against in your queries. Áttekintheti azokat a lekérdezési példákat is, amelyek tartalmazzák a Analyzer tulajdonságot a keresési dokumentumokban.You can review query examples that include the analyzer property in Search Documents.

További információ az index tulajdonságairól: index létrehozása (Azure Cognitive Search REST API).For more information about index properties, see Create Index (Azure Cognitive Search REST API). Az Azure Cognitive Search elemzésével kapcsolatos további információkért lásd: elemzők az Azure-ban Cognitive Search.For more information about analysis in Azure Cognitive Search, see Analyzers in Azure Cognitive Search.

Nyelvi analizátorok listájaLanguage analyzer list

Alább látható a támogatott nyelvek listája, valamint a Lucene és a Microsoft Analyzer neve.Below is the list of supported languages together with Lucene and Microsoft analyzer names.

NyelvLanguage Microsoft Analyzer neveMicrosoft Analyzer Name Lucene Analyzer neveLucene Analyzer Name
ArabArabic ar. Microsoftar.microsoft ar. Lucenear.lucene
örményArmenian Lucenehy.lucene
BanglaBangla bn. Microsoftbn.microsoft
BaszkBasque EU. Luceneeu.lucene
BolgárBulgarian BG. Microsoftbg.microsoft BG. Lucenebg.lucene
KatalánCatalan CA. Microsoftca.microsoft CA. Luceneca.lucene
kínai (egyszerűsített)Chinese Simplified zh-Hans. Microsoftzh-Hans.microsoft zh-Hans. Lucenezh-Hans.lucene
kínai (hagyományos)Chinese Traditional zh-Hant. Microsoftzh-Hant.microsoft zh-Hant. Lucenezh-Hant.lucene
HorvátCroatian HR. Microsofthr.microsoft
csehCzech cs. Microsoftcs.microsoft cs. Lucenecs.lucene
dánDanish da. Microsoftda.microsoft da. Luceneda.lucene
HollandDutch nl. Microsoftnl.microsoft nl. Lucenenl.lucene
AngolEnglish en. Microsoften.microsoft en. Luceneen.lucene
ÉsztEstonian et. Microsoftet.microsoft
finnFinnish Fi. Microsoftfi.microsoft Fi. Lucenefi.lucene
FranciaFrench fr. Microsoftfr.microsoft fr. Lucenefr.lucene
GallegoGalician Gl. Lucenegl.lucene
NémetGerman de. Microsoftde.microsoft de. Lucenede.lucene
GörögGreek el. Microsoftel.microsoft el. Luceneel.lucene
gudzsarátiGujarati Gu. Microsoftgu.microsoft
héberHebrew ő. Microsofthe.microsoft
HindiHindi Hi. Microsofthi.microsoft Hi. Lucenehi.lucene
MagyarHungarian hu. Microsofthu.microsoft hu. Lucenehu.lucene
IzlandiIcelandic a. Microsoftis.microsoft
Indonéz (Bahasa)Indonesian (Bahasa) azonosító. Microsoftid.microsoft ID. Luceneid.lucene
ÍrIrish ga. Lucenega.lucene
OlaszItalian it. Microsoftit.microsoft it. Luceneit.lucene
JapánJapanese ja. Microsoftja.microsoft ja. Luceneja.lucene
kannadaKannada KN. Microsoftkn.microsoft
KoreaiKorean ko. Microsoftko.microsoft ko. Luceneko.lucene
LettLatvian lv. Microsoftlv.microsoft lv. Lucenelv.lucene
LitvánLithuanian lt. Microsoftlt.microsoft
malajálamMalayalam ml. Microsoftml.microsoft
Maláj (latin betűs)Malay (Latin) MS. Microsoftms.microsoft
marathiMarathi Mr. Microsoftmr.microsoft
NorvégNorwegian NB. Microsoftnb.microsoft nem. Luceneno.lucene
perzsaPersian fa. Lucenefa.lucene
LengyelPolish pl. Microsoftpl.microsoft pl. Lucenepl.lucene
Portugál (Brazília)Portuguese (Brazil) pt-br. Microsoftpt-Br.microsoft pt-br. Lucenept-Br.lucene
Portugál (Portugália)Portuguese (Portugal) PT-pt. Microsoftpt-Pt.microsoft PT-pt. Lucenept-Pt.lucene
pandzsábiPunjabi PA. Microsoftpa.microsoft
RománRomanian ro. Microsoftro.microsoft ro. Lucenero.lucene
OroszRussian ru. Microsoftru.microsoft ru. Luceneru.lucene
Szerb (cirill betűs)Serbian (Cyrillic) SR-cirill betűs. Microsoftsr-cyrillic.microsoft
Szerb (latin betűs)Serbian (Latin) SR-latin. Microsoftsr-latin.microsoft
SzlovákSlovak sk. Microsoftsk.microsoft
SzlovénSlovenian SL. Microsoftsl.microsoft
SpanyolSpanish es. Microsoftes.microsoft es. Lucenees.lucene
svédSwedish Sv. Microsoftsv.microsoft Sv. Lucenesv.lucene
tamilTamil ta. Microsoftta.microsoft
teluguTelugu te. Microsoftte.microsoft
ThaiThai th. Microsoftth.microsoft th. Luceneth.lucene
TörökTurkish TR. Microsofttr.microsoft TR. Lucenetr.lucene
UkránUkrainian Egyesült Királyság. Microsoftuk.microsoft
urduUrdu a. Microsoftur.microsoft
VietnámiVietnamese VI. Microsoftvi.microsoft

Az Apache Lucene nyelvi elemzőia Lucene -mel ellátott nevekkel rendelkező elemzőket használják.All analyzers with names annotated with Lucene are powered by Apache Lucene's language analyzers.

Lásd mégSee also