Použití AI ke zpracování a analýze obsahu objektů blob v Azure Cognitive Search

Obsah ve službě Azure Blob Storage, který se skládá z obrázků nebo dlouhého nediferentovaného textu, může podstupovat hloubkovou analýzu, která odhalí a extrahuje cenné informace užitečné pro podřízené aplikace. Pomocí rozšíření AImůžete:

  • Extrakce textu z obrázků pomocí optického rozpoznávání znaků (OCR)
  • Vytvoření popisu scény nebo značek z fotky
  • Rozpoznávání jazyka a překlad textu do různých jazyků
  • Odvodit strukturu prostřednictvím rozpoznávání entit vyhledáním odkazů na lidi, kalendářní data, místa nebo organizace

I když možná budete potřebovat jen jednu z těchto funkcí AI, je běžné sloučit několik z nich do stejného kanálu (například extrahovat text z naskenovaného obrázku a pak najít všechna kalendářní data a místa, na která se v něm odkazuje). Běžně se také zahrnuje vlastní AI nebo zpracování strojového učení ve formě špičkových externích balíčků nebo interních modelů přizpůsobených vašim datům a vašim požadavkům.

I když můžete rozšíření AI použít na libovolný zdroj dat podporovaný indexerem vyhledávání, objekty blob jsou nejčastěji používané struktury v kanálu pro rozšiřování. Výsledky se převedou do vyhledávacího indexu pro fulltextové vyhledávání nebo se přesměrovají zpět do Azure Storage, aby byla k dispozici nová prostředí aplikací, která zahrnují zkoumání dat pro scénáře zjišťování nebo analýzy.

V tomto článku si prohlédněte rozšíření AI prostřednictvím širokého objektivu, abyste mohli rychle pochopit celý proces, od transformace nezpracovaných dat v objektech blob až po dotazovatelné informace v indexu vyhledávání nebo úložišti znalostí.

Co znamená "obohatit" data objektů blob pomocí AI

Rozšiřování AI je součástí architektury indexování v Azure Cognitive Search, která integruje modely strojového učení od Microsoftu nebo vlastní modely učení, které poskytnete. Pomáhá implementovat koncové scénáře, ve kterých potřebujete zpracovávat objekty blob (jak ty stávající, tak i nové, když přicházejí nebo se aktualizují), prolomit všechny formáty souborů a extrahovat obrázky a text, extrahovat požadované informace pomocí různých funkcí AI a indexovat je do vyhledávacího indexu pro rychlé vyhledávání, načítání a zkoumání.

Vstupy jsou vaše objekty blob v jednom kontejneru ve službě Azure Blob Storage. Objekty blob mohou být téměř jakýkoli druh textových nebo obrázových dat.

Výstupem je vždy vyhledávací index, který se používá pro rychlé textové vyhledávání, načítání a zkoumání v klientských aplikacích. Výstupem může být také úložiště znalostí, které pro projekty obohacených dokumentů do objektů blob Azure nebo tabulek Azure pro následné analýzy v nástrojích, jako jsou Power BI nebo v úlohách datových věd.

Mezi tím je samotná architektura kanálu. Kanál je založený na indexerech,ke kterým můžete přiřadit dovednosti skládajícíse z jedné nebo více dovedností poskytujících AI. Účelem kanálu je vytvářet obohacené dokumenty, které vstupují do kanálu jako nezpracovaný obsah, ale při přesunu kanálu přechádují další strukturu, kontext a informace. Při indexování se využívají obohacené dokumenty, aby se vytvořily obrácené indexy a další struktury používané při fulltextového vyhledávání nebo zkoumání a analýze.

Požadované prostředky

Kromě služeb Azure Blob Storage a Azure Cognitive Search potřebujete třetí službu nebo mechanismus, který poskytuje AI:

  • Pro integrovanou AI se Cognitive Search s rozhraními API Azure Cognitive Services zpracování obrazu a přirozeného jazyka. Můžete připojit prostředek Cognitive Services přidat optické rozpoznávání znaků (OCR), analýzu obrázků nebo zpracování přirozeného jazyka (rozpoznávání jazyka, překlad textu, rozpoznávání entit, extrakci klíčových frází).

  • Pro vlastní AI s využitím prostředků Azure můžete definovat vlastní dovednost, která zabalí externí funkci nebo model, který chcete použít. Vlastní dovednosti mohou využívat kód poskytovaný Azure Functions, Azure Machine Learning, Azure Rozpoznávání formulářů nebo jiným zdrojem, který je dostupný přes protokol HTTPS.

  • V případě vlastních Azure AI musí být váš model nebo modul přístupný indexeru přes protokol HTTP.

Pokud nemáte všechny služby snadno dostupné, začněte přímo na stránce Storage účtu. Na levé navigační stránce v části Blob service přidat Azure Cognitive Search a vytvořte novou službu nebo vyberte existující.

Po přidání Azure Cognitive Search do účtu úložiště můžete postupovat podle standardního procesu a rozšířit data v libovolném zdroji dat Azure. Doporučujeme průvodce importem dat v Azure Cognitive Search pro snadný počáteční úvod do rozšiřování AI. Během pracovního postupu Cognitive Services připojit prostředek clusteru. Tento rychlý start vás provede kroky: Vytvoření kanálu pro rozšiřování AI na portálu.

V následujících částech se blíže podíváme na komponenty a pracovní postup.

Použití indexeru objektů blob

Rozšiřování AI je doplněk ke kanálu indexování a v Azure Cognitive Search jsou tyto kanály postavené na indexeru. Indexer je podslužba podporující zdroj dat vybavená interní logikou pro vzorkování dat, čtení dat metadat, načítání dat a serializaci dat z nativních formátů do dokumentů JSON pro následný import. Indexery se často používají samy pro import, odděleně od AI, ale pokud chcete vytvořit kanál pro rozšiřování AI, budete k tomu potřebovat indexer a dovednosti. Tato část zvýrazní indexer. Další část se zaměřuje na sady dovedností.

Objekty blob v Azure Storage se indexuje pomocí indexeru objektů blob. Tento indexer můžete vyvolat pomocí Průvodce importem dat, REST API nebo sady SDK. Indexer objektů blob se vyvolá, když je zdrojem dat používaným indexerem kontejner objektů blob Azure. Podmnožinu objektů blob můžete indexovat vytvořením virtuálního adresáře, který pak můžete předat jako parametr, nebo filtrováním přípony typu souboru.

Indexer "prolomí dokument"a otevře objekt blob pro kontrolu obsahu. Po připojení ke zdroji dat je to první krok v kanálu. U dat objektů blob se zde detekuje pdf, dokumentace k Office, obrázek a další typy obsahu. Prolomení dokumentů extrakcí textu je zdarma. Prolomení dokumentů extrakcí obrázků se účtuje podle sazeb, které najdete na stránce s cenami.

I když budou všechny dokumenty prolomené, k rozšiřování dojde pouze v případě, že explicitně poskytnete dovednosti, které k tomu máte. Pokud se například váš kanál skládá výhradně z analýzy obrázků, text v kontejneru nebo dokumentech se ignoruje.

Indexer objektů blob obsahuje parametry konfigurace a podporuje sledování změn, pokud podkladová data poskytují dostatek informací. Další informace najdete v tématu Konfigurace indexeru objektů blob.

Přidání komponent AI

Rozšiřování AI označuje moduly, které dychtí po vzorech nebo charakteristikách a pak odpovídajícím způsobem provádějí operaci. Ilustrativní příklady jsou rozpoznávání obličeje na fotkách, textové popisy fotek, detekce klíčových frází v dokumentu a OCR (nebo rozpoznávání tištěných nebo ručně psaných textů v binárních souborech).

V Azure Cognitive Search dovednosti jsou jednotlivé komponenty zpracování AI, které můžete použít samostatně nebo v kombinaci s jinými dovednostmi.

  • Integrované dovednosti jsou založené na Cognitive Services, s analýzou obrázků na základě Počítačové zpracování obrazu a zpracováním přirozeného jazyka na základě Analýza textu. Úplný seznam najdete v tématu Integrované dovednosti pro rozšiřování obsahu.

  • Vlastní dovednosti jsou vlastní kód zabalený v definici rozhraní, která umožňuje integraci do kanálu. V zákaznických řešeních se běžně používají obojí s vlastními dovednostmi, které poskytují open source moduly AI, moduly třetích stran nebo vlastní moduly AI.

Sada dovedností je kolekce dovedností používaných v kanálu a vyvolá se poté, co fáze prolomení dokumentu zdokumentuje obsah. Indexer může využívat přesně jednu dovednosti, ale tato sada dovedností existuje nezávisle na indexeru, abyste ji mohli znovu použít v jiných scénářích.

Vlastní dovednosti můžou znít složitě, ale z hlediska implementace můžou být jednoduché a jednoduché. Pokud máte existující balíčky, které poskytují modely porovnávání vzorů nebo klasifikace, může být obsah extrahovaný z objektů blob předán ke zpracování těmto modelům. Vzhledem k tomu, že rozšíření AI je založené na Azure, měl by být váš model také v Azure. Mezi běžné metodologie hostování patří použití Azure Functions nebo kontejnerů.

Předdefinované dovednosti s Cognitive Services vyžadují Cognitive Services klíč předplatného typu vše v jednom, který vám umožní přístup k prostředku. Klíč "vše v jednom" poskytuje analýzu obrázků, rozpoznávání jazyka, překlad textu a analýzu textu. Další integrované dovednosti jsou funkce Azure Cognitive Search a nevyžadují žádnou další službu ani klíč. Příkladem pomocových dovedností, které jsou někdy potřeba při návrhu kanálu, jsou Shaper, splitter a merger.

Pokud používáte jenom vlastní dovednosti a integrované dovednosti v oblasti utility, neexistují žádné závislosti ani náklady související s Cognitive Services.

Využívat výstup s rozšířením AI v řešeních pro příjem dat

Výstupem rozšíření AI je buď vyhledávací index na Azure Cognitive Search, nebo úložiště znalostí v Azure Storage.

V Azure Cognitive Search se k interaktivnímu zkoumání pomocí volného textu a filtrovaných dotazů v klientské aplikaci používá vyhledávací index. Enriched documents created through AI are formatted in JSON and indexed in the same way all documents are indexed in Azure Cognitive Search, leveraging all the benefits an indexer provides. Indexer objektů blob například během indexování odkazuje na parametry konfigurace a nastavení, aby bylo možno využít jakékoli mapování polí nebo logiku detekce změn. Tato nastavení jsou plně dostupná pro pravidelné indexování a úlohy s rozšířením AI. Po indexování můžete při uložení obsahu do Azure Cognitive Search vytvářet bohaté dotazy a filtrovací výrazy, abyste porozuměli svému obsahu.

Ve Azure Storage úložišti znalostí jsou dva pochůdky: kontejner objektů blob nebo tabulky ve službě Table Storage.

  • Kontejner objektů blob zachycuje celé obohacené dokumenty, což je užitečné, pokud chcete do jiných procesů zachytávání.

  • Služba Table Storage naopak dokáže pojmout fyzické projekce obohacených dokumentů. Můžete vytvářet řezy nebo vrstvy obohacených dokumentů, které zahrnují nebo vylučují konkrétní části. Pro analýzu v Power BI se z tabulek v Azure Table Storage stát zdrojem dat pro další vizualizaci a zkoumání.

Obohacený dokument na konci kanálu se liší od původní vstupní verze přítomností dalších polí obsahujících nové informace, které byly extrahovány nebo generovány během rozšiřování. Proto můžete pracovat s kombinací původního a vytvořeného obsahu bez ohledu na to, jakou výstupní strukturu použijete.

Další kroky

S rozšiřováním AI toho můžete dělat mnohem víc, abyste mohli data v Azure Storage co nejvíce vynachánit, včetně kombinování Cognitive Services různými způsoby a vytváření vlastních dovedností v případech, kdy pro tento scénář neexistuje žádná existující služba Cognitive Service. Další informace najdete na následujících odkazech.