Sémantické vyhledávání ve službě Azure Cognitive Search

Důležité

Sémantické vyhledávání je ve verzi Public Preview v rámci doplňkových podmínek použití. Je k dispozici prostřednictvím verzí Azure Portal, preview REST API a beta verzí SDK. Tyto funkce jsou fakturovatelné. Další informace najdete v tématu Dostupnost a ceny.

Sémantické vyhledávání je kolekce funkcí souvisejících s dotazy, které při hledání výsledků přinášejí sémantickou relevanci a porozumění jazyku. Tento článek je základní úvod do sémantického vyhledávání s popisem jednotlivých funkcí a jejich souhrnem. Vložené video popisuje technologii a část na konci se věnuje dostupnosti a cenám.

Sémantické vyhledávání je prémiová funkce. Tento článek doporučujeme pro základní informace, ale pokud chcete raději začít, postupujte následovně:

Sémantické vyhledávání je kolekce funkcí, které zlepšují kvalitu výsledků hledání. Když je ve vyhledávací službě povolená, rozšíří kanál spouštění dotazů dvěma způsoby. Nejprve přidá sekundární hodnocení nad počáteční sadu výsledků a na začátek seznamu posouvá nejsémanticky relevantní výsledky. Za druhé extrahuje a vrací titulky a odpovědi v odpovědi, které můžete vykreslit na vyhledávací stránce a zlepšit tak vyhledávání uživatele.

Funkce Popis
Sémantické přetření pořadí Používá kontext nebo sémantický význam k výpočtu nového skóre relevance pro existující výsledky.
Sémantické titulky a zvýraznění Extrahuje věty a fráze z dokumentu, který nejlépe shrnuje obsah, se zvýrazněnou větou nad klíčovými částmi pro snadnou kontrolu. Titulky, které shrnují výsledek, jsou užitečné, když jsou jednotlivá pole obsahu pro stránku výsledků příliš hustota. Zvýrazněný text zvýrazňuje nejzávažnější termíny a fráze, aby uživatelé mohli rychle určit, proč byla shoda považována za relevantní.
Sémantické odpovědi Volitelná a další dílčí struktura vrácená ze sémantického dotazu. Poskytuje přímou odpověď na dotaz, který vypadá jako otázka. Vyžaduje, aby dokument měl text s charakteristikou odpovědi.
Kontrola pravopisu Opraví překlepy předtím, než termíny dotazu dosáhnou vyhledávacího modulu.

Jak funguje sémantické hodnocení

Sémantické hodnocení hledá kontext a souvislost mezi termíny a zlepšuje shody, které jsou vzhledem k dotazu smysluhodnější. Porozumění jazyku vyhledá v obsahu souhrny nebo titulky a odpovědi a zahrne je do odpovědi, která se pak vykreslí na stránce výsledků hledání, aby bylo vyhledávání produktivnější.

Moderní předem vytrénované modely se používají ke shrnutí a hodnocení. Aby se udržoval rychlý výkon, který uživatelé očekávají od vyhledávání, použije se sémantická sumarita a hodnocení pouze na 50 nejlepších výsledků, jak hodnotí výchozí algoritmus vyhodnocování podobnosti. Při použití těchto výsledků jako korpusu dokumentu sémantické hodnocení výsledky znovu vy skóre na základě sémantické síly shody.

Základní technologie pochází z Bing a Microsoft Research a je integrovaná do Cognitive Search infrastruktury jako doplňková funkce. Další informace o sémantickém vyhledávání v oblasti výzkumu a investic do AI najdete v tématu How AI from Bing is powering Azure Cognitive Search (Microsoft Research Blog).

Následující video poskytuje přehled možností.

Pořadí operací

Komponenty sémantického vyhledávání rozšiřují stávající kanál spouštění dotazů v obou směrech. Pokud povolíte pravopisnou opravu, pravopis opraví překlepy při zahájení dotazu, než termíny dosáhnou vyhledávacího modulu.

Sémantické komponenty při provádění dotazů

Provádění dotazů probíhá jako obvykle s termínem parsování, analýza a prohledávání invertovaných indexů. Modul načte dokumenty pomocí porovnávání tokenů a výsledky vy skóre pomocí výchozího algoritmu vyhodnocování podobnosti. Skóre se počítá na základě stupně lingvistiky podobnosti mezi termíny dotazu a odpovídajícími termíny v indexu. Pokud jste je definovali, použijí se v této fázi také profily vyhodnocování. Výsledky se pak předá subsystému sémantického vyhledávání.

V přípravné fázi se korpus dokumentu vrácený z počáteční sady výsledků dotazu analyzuje na úrovni věty a odstavce a najde části, které shrnují jednotlivé dokumenty. Na rozdíl od hledání klíčových slov tento krok k vyhodnocení obsahu používá strojové čtení a porozumění. Prostřednictvím této fáze zpracování obsahu vrací sémantický dotaz titulky a odpovědi. Při jejich formování používá sémantické vyhledávání reprezentaci jazyka k extrakci a zvýraznění klíčových částek, které nejlépe sumarizuje výsledek. Pokud je vyhledávací dotaz otázkou a jsou požadovány odpovědi, bude odpověď obsahovat také textový část, která nejlépe odpovídá na otázku vyjádřená vyhledávacím dotazem.

U popisků i odpovědí se v formulování používá existující text. Sémantické modely neskládat nové věty nebo fráze z dostupného obsahu, ani neumrazí logiku k vyvozování nových závěrů. Ve zkratce systém nikdy nevrátí obsah, který ještě neexistuje.

Výsledky se pak pře skóre na základě koncepční podobnosti termínů dotazu.

Pokud chcete v dotazech používat sémantické schopnosti, budete muset provést malé úpravy vyhledávacího požadavku,ale nevyžaduje se žádná další konfigurace nebo přeindexování.

Sémantické schopnosti a omezení

Sémantické vyhledávání je novější technologie, takže je důležité nastavit očekávání ohledně toho, co může a nemůže dělat. Může zlepšit kvalitu vyhledávání pomocí:

  • Povýšení shod, které jsou sémanticky blíže záměru původního dotazu.

  • Hledání řetězců v každém výsledku, které lze použít jako titulky a potenciálně odpovědi, které lze vykreslit na stránce výsledků hledání.

Nemůže ale znovu spustit dotaz na celém korpusu a najít tak sémanticky relevantní výsledky. Sémantické vyhledávání přeřadí existující sadu výsledků, která se skládá z 50 nejlepších výsledků podle výchozího algoritmu hodnocení. Kromě toho sémantické vyhledávání nemůže vytvářet nové informace ani řetězce. Titulky a odpovědi se z obsahu extrahují doslovně, takže pokud výsledky nezahrnují text jako odpověď, jazykové modely ho nevyprodukují.

I když sémantické vyhledávání není v každém scénáři přínosné, může z jeho možností výrazně těžit určitý obsah. Jazykové modely v sémantickém vyhledávání fungují nejlépe na prohledávatelném obsahu, který má bohaté informace a je strukturovaný jako prose. Znalostní báze, online dokumentace nebo dokumenty, které obsahují popisný obsah, vidí největší výhody ze sémantických vyhledávacích možností.

Dostupnost a ceny

Sémantické vyhledávání je k dispozici prostřednictvím registrace . K dispozici je jedna registrace pro sémantické vyhledávání i kontrolu pravopisu.

Funkce Úroveň Oblast Registrace Ceny
Sémantické vyhledávání (pořadí, titulky, zvýraznění, odpovědi) Úroveň Standard (S1, S2, S3) USA – středosever, USA – západ, USA – západ 2, USA – východ 2, Severní Evropa, Západní Evropa Vyžadováno Cognitive Search s cenami
Kontrola pravopisu Basic1 a vyšší Vše Žádné Žádné (zdarma)

1 Vzhledem k mechanismům zřizování a životnosti sdílených (bezplatných) vyhledávacích služeb se kontrola pravopisu na úrovni Free týká malého počtu služeb. Dostupnost kontroly pravopisu ve službách úrovně Free však není zaručená a neměla by se očekávat.

Poplatky za sémantické vyhledávání se vyžádá, když požadavky na dotazy obsahují "queryType=semantic" a hledaný řetězec není prázdný (například "search=pet friendly hotels in New york". Pokud je hledaný řetězec prázdný ("search=*"), nebudou se vám účtovat žádné poplatky, ani když je parametr queryType nastavený na "semantic".

V případě úplné ochrany před náhodným využitím a poplatky můžete Zakázat sémantické vyhledávání pomocí rozhraní API služby Create nebo Update Service v rámci vyhledávací služby. Po zakázání funkce budou všechny požadavky, které obsahují typ sémantického dotazu, odmítnuty.

  • Management REST API verze 2021-04-01-Preview poskytuje tuto možnost

  • K zakázání funkcí se vyžadují oprávnění vlastníka nebo přispěvatele.

PUT https://management.azure.com/subscriptions/{{subscriptionId}}/resourcegroups/{{resource-group}}/providers/Microsoft.Search/searchServices/{{search-service-name}}?api-version=2021-04-01-Preview
    {
      "location": "{{region}}",
      "sku": {
        "name": "standard"
      },
      "properties": {
        "semanticSearch": "disabled"
      }
    }

Pokud chcete znovu povolit sémantické vyhledávání, spusťte znovu výše uvedený požadavek a nastavte "semanticSearch" na buď "Free" (výchozí) nebo "Standard".

Tip

Volání REST API správy jsou ověřována prostřednictvím Azure Active Directory. Pokyny k nastavení zásad zabezpečení a požadavku najdete v tomto blogu v příspěvku rozhraní API Azure REST pomocí metody post (2021). Předchozí příklad se testoval pomocí instrukcí a kolekce pro publikování v příspěvku na blogu.

Další kroky

Zaregistrujte se do služby Search ve verzi Preview, která splňuje úrovně a regionální požadavky uvedené v předchozí části.

Zpracování žádosti může trvat až dva pracovní dny. Jakmile je vaše služba připravena, vytvořte sémantický dotaz pro vyhodnocení výkonu obsahu.