Znalostní báze ve službě Azure Kognitivní hledání

znalostní báze je datová jímka vytvořená kanálem rozšíření Kognitivní hledání AI , která uchovává obohacený obsah v tabulkách a kontejnerech objektů blob v Azure Storage pro nezávislá analýzy nebo zpracování pro příjem dat ve scénářích, jako je například dolování znalostí.

Pokud jste v minulosti používali rozpoznávání vnímání, již víte, že dovednosti přesouvá dokument pomocí sekvence rozšíření, která vyvolává atomické transformace, jako je například rozpoznávání entit nebo překlad textu. Výsledkem může být index vyhledávání nebo projekce ve znalostní bázi. Dva výstupy, vyhledávací index a znalostní obchod jsou vzájemně exkluzivními produkty stejného kanálu; odvozeno ze stejných vstupů, ale má za následek strukturované, uložené a používané v různých aplikacích.

Kanál s dovednosti

znalostní báze knowledge store je fyzicky Azure Storage, buď azure Table Storage, azure Blob Storage, nebo obojí. libovolný nástroj nebo proces, který se může připojit k Azure Storage může využívat obsah znalostní báze knowledge store.

v prohlížeči Storage znalostní báze vypadá jako jakákoli jiná kolekce tabulek, objektů nebo souborů. Následující příklad ukazuje úložiště znalostí složené ze tří tabulek s poli, která jsou předána ze zdroje dat nebo vytvořena prostřednictvím rozšíření (viz "mínění skóre" a "translated_text").

Ve stromové struktuře pro čtení a zápis dovedností

Výhody znalostní báze Knowledge Store

Hlavní přínosy znalostní báze Knowledge Store jsou dvě přeložení: flexibilní přístup k obsahu a schopnost vytvářet data tvarů.

Na rozdíl od indexu vyhledávání, ke kterému se dá dostat jenom prostřednictvím dotazů v Kognitivní hledání, je k znalostnímu obchodu možné přistupovat kterýkoli nástroj, aplikaci nebo proces, který podporuje připojení k Azure Storage. Tato flexibilita otevírá nové scénáře pro využívání analyzovaného a obohaceného obsahu vytvořeného kanálem rozšíření.

Stejný dovednosti, který rozšiřuje data, lze také použít k tvarování dat. některé nástroje, jako je Power BI fungují lépe s tabulkami, zatímco úloha datové vědy může vyžadovat složitou datovou strukturu ve formátu objektu blob. Přidání dovednosti Shaper do dovednosti vám umožní řídit tvar vašich dat. Tyto tvary pak můžete předat projekci, a to buď tabulky nebo objekty blob, a vytvořit tak fyzické datové struktury, které odpovídají zamýšlenému použití dat.

Následující video vysvětluje obě tyto výhody i další.

Definice znalostní báze Knowledge Store

Znalostní báze je definován v rámci definice dovednosti a má dvě komponenty:

  • Připojovací řetězec, který se má Azure Storage

  • Projekce , které určují, jestli se znalostní báze skládá z tabulek, objektů nebo souborů.

Prvek projekce je pole. V jednom úložišti znalostí můžete vytvořit několik sad kombinací souborových objektů.

"knowledgeStore": {
   "storageConnectionString":"<YOUR-AZURE-STORAGE-ACCOUNT-CONNECTION-STRING>",
   "projections":[
      {
         "tables":[ ],
         "objects":[ ],
         "files":[ ]
      }
   }

Typ projekce, kterou zadáte v této struktuře, určuje typ úložiště používaný službou Knowledge Store.

  • tablesprojekt obohacený obsahem do Table Storage. Definujte projekci tabulky, když potřebujete struktury tabulkového vytváření sestav pro vstupy do analytických nástrojů nebo exportovat jako datové snímky do jiných úložišť dat. Můžete zadat více tables v rámci stejné skupiny projekce, abyste získali podmnožinu nebo průřez obohacených dokumentů. V rámci stejné skupiny projekce jsou vztahy mezi tabulkami zachované, takže můžete pracovat se všemi nimi.

    Projektový obsah není agregovaný nebo normalizován. Následující snímek obrazovky ukazuje tabulku seřazenou podle klíčové fráze s nadřazeným dokumentem uvedeným v sousedním sloupci. Na rozdíl od ingestování dat během indexování není k dispozici žádná Lingvistická analýza ani agregace obsahu. Množné formuláře a rozdíly v malých a velkých písmenech se považují za jedinečné instance.

    Snímek obrazovky klíčových frází a dokumentů v tabulce

  • objects dokument JSON projektu do úložiště objektů BLOB Fyzická reprezentace prvku object je hierarchická struktura JSON, která představuje obohacený dokument.

  • files soubory obrázků projektu do úložiště objektů BLOB. A file je obrázek extrahovaný z dokumentu, který se přenese beze změny do úložiště objektů BLOB. i když se nazývá "soubory", zobrazí se v Blob Storage, nikoli v úložišti souborů.

Vytvoření úložiště znalostí

K vytvoření úložiště Knowledge Store použijte portál nebo rozhraní API. budete potřebovat Azure Storage, dovednostia indexer. Vzhledem k tomu, že indexery vyžadují index vyhledávání, budete také muset zadat definici indexu.

Projděte si přístup k portálu pro nejrychlejší směrování do kompletního obchodu Knowledge Store. Případně můžete zvolit REST API pro hlubší porozumění způsobu, jakým jsou objekty definovány a související.

Vytvořte svoje první znalostní bázi ve čtyřech krocích pomocí průvodce importem dat .

  1. Definování zdroje dat

  2. Definujte své dovednosti a zadejte úložiště znalostí.

  3. Definujte schéma indexu. Průvodce ho vyžaduje a může pro vás odvodit.

  4. Spusťte průvodce. V tomto posledním kroku dojde k extrakci, obohacení a ukládání.

Průvodce automatizuje úlohy, které byste jinak museli zpracovat ručně. konkrétně se vytvoří tvar i projekce (definice fyzických datových struktur v Azure Storage).

Připojení s aplikacemi

jakmile rozšíření existují v úložišti, můžete použít libovolný nástroj nebo technologii, která se připojuje ke službě Azure Blob nebo Table Storage k prozkoumávání, analýze nebo využívání obsahu. Následující seznam je začátek:

  • Storage prohlížeč pro zobrazení obohacené struktury dokumentů a obsahu. Vezměte ho jako základní nástroj pro zobrazení obsahu znalostní databáze.

  • Power BI pro vytváření sestav a analýzy.

  • Azure Data Factory pro další manipulaci.

Životní cyklus obsahu

Pokaždé, když spustíte indexer a dovednosti, se znalostní báze aktualizuje, pokud se změnila dovednosti nebo zdrojová data. Všechny změny, které vybral indexer, se šíří prostřednictvím procesu rozšíření na projekce ve znalostní bázi, což zajišťuje, že vaše data v datech jsou aktuální reprezentace obsahu v původním zdroji dat.

Poznámka

I když můžete upravovat data v projekcích, jakékoli úpravy budou přepsány při dalším vyvolání kanálu za předpokladu, že se dokument ve zdrojových datech aktualizuje.

Změny ve zdrojových datech

U zdrojů dat, které podporují sledování změn, bude indexer zpracovávat nové a změněné dokumenty a obejít existující dokumenty, které již byly zpracovány. Informace o časovém razítku se v závislosti na zdroji dat liší, ale v kontejneru objektů BLOB se indexer vyhledává podle lastmodified data a určuje, které objekty BLOB je potřeba ingestovat.

Změny dovednosti

Pokud provádíte změny v dovednosti, měli byste Povolit ukládání obohacených dokumentů do mezipaměti , aby bylo možné znovu použít existující rozšíření, pokud je to možné.

Bez přírůstkového ukládání do mezipaměti bude indexer vždy zpracovávat dokumenty v pořadí horních značek, aniž by se museli převádět zpět. V případě objektů BLOB by indexer zpracovával objekty blob seřazené podle lastModified , bez ohledu na změny nastavení indexeru nebo dovednosti. Pokud změníte dovednosti, dříve zpracované dokumenty se neaktualizují, aby odrážely nové dovednosti. Dokumenty zpracované po změně dovednosti budou používat nový dovednosti, což vede k indexování dokumentů jako kombinace starých a nových dovednosti.

V případě přírůstkového ukládání do mezipaměti a po aktualizaci dovednosti bude indexer znovu používat všechna rozšíření, která nejsou ovlivněná dovednosti změnou. Z mezipaměti jsou načítány nadřízená rozšíření, stejně jako jakákoli rozšíření, která jsou nezávislá a izolovaná od změněných dovedností.

Odstranění

i když indexer vytvoří a aktualizuje struktury a obsah v Azure Storage, neodstraní je. Projekce i nadále existují i v případě, že indexer nebo dovednosti se odstraní. Jako vlastník účtu úložiště byste měli projekce odstranit, pokud už nepotřebujete.

Další kroky

znalostní báze Knowledge store nabízí persistenci obohacených dokumentů, které jsou užitečné při navrhování dovednosti nebo vytváření nových struktur a obsahu pro použití všemi klientskými aplikacemi, které mají přístup k Azure Storagemu účtu.

Nejjednodušším přístupem k vytváření obohacených dokumentů je portál, ale můžete také použít post a REST API, což je užitečnější, pokud chcete získat přehled o tom, jak se objekty vytvářejí a že se na ně odkazuje programově.