Szemantikai rangsorolás a Azure Cognitive Search

Fontos

A szemantikai keresés nyilvános előzetes verzióban érhető el kiegészítő használati feltételek mellett. A szolgáltatás a Azure Portal, az REST API és a bétaverzióSDK-kban érhető el. Ezek a funkciók számlázhatók. További információ: Rendelkezésre állás és díjszabás.

A szemantikai rangsor a lekérdezés-végrehajtási folyamat kiterjesztése, amely javítja a pontosságot a kezdeti eredményhalmaz első egyezésének újraküldésével. A szemantikai rangsorolás alapját nagy transzformátoralapú hálózatok jelentik, amelyek betanítása a lekérdezési kifejezések szemantikai jelentésének rögzítésére van betanítva, nem pedig a kulcsszavak nyelvi egyezése. Az alapértelmezett hasonlóságrangsorolási algoritmusával ellentétben a szemantikai rangsoroló a szavak kontextusát és jelentését használja a relevancia meghatározásához.

A szemantikai rangsorolás erőforrás- és időigényes is. A lekérdezési művelet várt késése szerinti feldolgozás befejezéséhez a szemantikai rangsoroló bemenetei összevonva és csökkentve lesznek, hogy az alapul szolgáló összegzési és reranking-lépések a lehető leggyorsabban teljesíthetőek legyenek.

Előzetes feldolgozás

A relevancia pontozása előtt a tartalmat kezelhető számú bemenetre kell csökkenteni, amelyet hatékonyan kezelhet a szemantikai rangsoroló.

  1. A tartalomcsökkentés első lépése a kulcsszókereséshez használt alapértelmezett hasonlóság rangsorolási algoritmus által visszaadott kezdeti eredményhalmaz. Egy adott lekérdezés esetén az eredmény lehet néhány dokumentum, legfeljebb 1000- ig. Mivel a nagy számú egyezés feldolgozása túl sokáig tart, csak az első 50 a szemantikai rangsorolásig tart.

    A dokumentum számtól függetlenül, akár egy, akár 50, a kezdeti eredményhalmaz hozza létre a corpus dokumentum első iterációját a szemantikai rangsoroláshoz.

  2. Ezután a corpus területen a "searchFields" (keresőmezők) mezőinek tartalmát kinyeri, és egy hosszú sztringbe kombinálja.

  3. A sztringek összevonása után a rendszer levágja a túl hosszú sztringeket, hogy a teljes hossz megfeleljen az összegzési lépés bemeneti követelményeinek.

    Ez a vágási gyakorlat miatt fontos, hogy a "searchFields" (keresési mezők) mezőiben először a tömör mezőket helyezze el, hogy azok bele vannak-e foglalni a sztringbe. Ha nagyon nagy méretű, szöveges mezőket is tartalmaz, a rendszer a maximális korlátot követően bármit figyelmen kívül hagy.

Mostantól minden dokumentumot egyetlen hosszú sztring ábrázol.

A sztring nem karakterekből vagy szavakból, de jogkivonatokból áll. A jogkivonatok maximális száma 128 egyedi jogkivonat. Becslési célból feltételezheti, hogy 128 token nagyjából egyenértékű egy 128 szó hosszúságú sztringnek.

Megjegyzés

A jogkivonat-kiosztást részben a kereshető mezők elemzői hozzárendelése határozza meg. Ha speciális elemzőt használ, például nGramot vagy EdgeNGramot, érdemes lehet kizárni ezt a mezőt a searchFields mezőből. A sztringek tokenekbe való tokenesetekkel kapcsolatos elemzéséhez tekintse át egy elemző tokenkimenetét a Test Analyzer REST API.

Kigyűjtés

A sztringek csökkentése után már át lehet adni a csökkent bemeneteket a gépi olvasási szövegértésen és a nyelvi ábrázolásmodellen keresztül annak meghatározásához, hogy mely mondatok és kifejezések foglalják össze a legjobban a dokumentumot a lekérdezéshez viszonyítva. Ebben a fázisban kinyeri a tartalmat a sztringből, amely továbblép a szemantikai rangsorolóra.

Az összegzés bemenetei az előkészítési fázisban az egyes dokumentumokhoz kapott hosszú sztringek. Az összes sztringből az összegzési modell egy olyan szakaszt talál, amely a leginkább reprezentatív. Ez a szakasz a dokumentum szemantikai feliratát is tartalmazza. Minden felirat egyszerű szöveges és kiemelési verzióban érhető el, és dokumentumonként gyakran kevesebb mint 200 szóból áll.

A rendszer akkor is szemantikai választ ad vissza, ha a "answers" paramétert adja meg, ha a lekérdezés kérdésként lett megadva, és ha talál egy szakaszt a hosszú sztringben, amely valószínűleg választ ad a kérdésre.

Szemantikai rangsorolás

  1. A feliratok fogalmi és szemantikai relevancia szempontjából vannak kiértékelve a megadott lekérdezéshez viszonyítva.

    Az alábbi ábra azt szemlélteti, hogy mit jelent a "szemantikai relevancia". Gondoljon a "tőke" kifejezésre, amely pénzügyi, jogi, földrajzi vagy nyelvtani kontextusban is használható. Ha egy lekérdezés kifejezéseket tartalmaz ugyanabba a vektortérbe (például "tőke" és "befektetés"), akkor egy olyan dokumentum, amely szintén tartalmaz jogkivonatokat ugyanabban a fürtben, magasabb pontszámot fog pontszámmal, mint ami nem.

    Környezet vektoros ábrázolása

  2. A minden dokumentumhoz a felirat @search.rerankerScore szemantikai relevanciája alapján van hozzárendelve.

  3. Az összes dokumentum pontozása után azok pontszám szerint csökkenő sorrendben megjelenik, és szerepelnek a lekérdezési válasz hasznos adatában. A hasznos adatok tartalmazzák a válaszokat, az egyszerű szöveget és a kiemelt feliratokat, valamint az összes olyan mezőt, amely lekért vagy egy select záradékban van megjelölve.

Következő lépések

A szemantikai rangsorolás a Standard szinteken, adott régiókban elérhető. További információ a rendelkezésre állásról és a regisztrációról: Rendelkezésre állás és díjszabás. Egy új lekérdezéstípus lehetővé teszi a szemantikai keresés rangsorolási és válaszstruktúráit. Első lépések: Szemantikai lekérdezés létrehozása.

Másik lehetőségként tekintse át a következő cikkeket az alapértelmezett rangsorolásról. A szemantikai rangsorolás a hasonlóság rangsorolója alapján adja vissza a kezdeti eredményeket. A lekérdezések végrehajtásának és rangsorolásának ismerete átfogó ismereteket ad a teljes folyamatról.