hledání obsahu Blob Storage v Azure

hledání v nejrůznějších typech obsahu uložených v Azure Blob Storage může být obtížné vyřešit problém. V tomto článku si Projděte základní pracovní postup pro extrakci obsahu a metadat z objektů BLOB a odeslání do indexu vyhledávání v Azure Kognitivní hledání. Výsledný index lze dotazovat pomocí fulltextového vyhledávání.

Poznámka

Už znáte pracovní postup a kompozici? Jak nakonfigurovat indexer objektů BLOB je váš další krok.

Co znamená přidání fulltextového vyhledávání do dat objektů BLOB

Azure Kognitivní hledání je vyhledávací služba, která podporuje indexování a dotazování úloh v rámci uživatelsky definovaných indexů, které obsahují váš vzdálený prohledávatelný obsah, který je hostovaný v cloudu. Společné umístění vyhledávaného obsahu pomocí dotazovacího stroje je nezbytné pro výkon a vrácení výsledků na rychlost, jakou uživatelé chtějí očekávat od vyhledávacích dotazů.

Kognitivní hledání se integruje s Azure Blob Storage na vrstvu indexování a importuje obsah objektu BLOB jako dokumenty pro hledání, které se indexují na obrácené indexy a jiné struktury dotazů, které podporují textové dotazy a výrazy filtru volných formulářů. Vzhledem k tomu, že obsah objektu BLOB je indexovaný do indexu vyhledávání, můžete v Azure Kognitivní hledání využít celou škálu funkcí dotazů a vyhledat informace v obsahu objektů BLOB.

Vstupy jsou vaše objekty BLOB v jednom kontejneru v Azure Blob Storage. Objekty blob můžou být skoro libovolný druh textových dat. Pokud objekty blob obsahují obrázky, můžete do indexování objektů BLOB přidat rozšíření AI a vytvořit a extrahovat text z imagí.

Výstupem je vždy index služby Azure Kognitivní hledání, který se používá pro rychlé vyhledávání textu, načítání a průzkum v klientských aplikacích. V mezi je samotná architektura kanálu indexování. Kanál je založen na funkci indexeru , která je popsána dále v tomto článku.

Po vytvoření a naplnění indexu existuje nezávisle na vašem kontejneru objektů blob, ale můžete znovu spustit operace indexování a aktualizovat svůj index na základě změněných dokumentů. Informace o časovém razítku jednotlivých objektů BLOB se používají ke zjištění změn. Jako mechanismus obnovení můžete zvolit plánované spuštění nebo indexování na vyžádání.

Požadované prostředky

Potřebujete Kognitivní hledání Azure i Azure Blob Storage. V úložišti objektů BLOB budete potřebovat kontejner, který poskytuje zdrojový obsah.

můžete začít přímo na stránce portálu účtu Storage. Na levé navigační stránce v části BLOB Service vyberte Přidat Azure kognitivní hledání a vytvořte novou službu nebo vyberte existující.

Až přidáte Azure Kognitivní hledání do svého účtu úložiště, můžete postupovat podle standardního procesu indexování dat objektů BLOB. Průvodce importem dat v Azure kognitivní hledání pro snadné počáteční zavedení doporučujeme, nebo můžete volat rozhraní REST API pomocí nástroje, jako je například post. Tento kurz vás provede jednotlivými kroky volání REST API v části post: index a hledání částečně strukturovaných dat (JSON BLOBS) ve službě Azure kognitivní hledání.

Použití indexeru objektů BLOB

Indexer je podslužba s podporou zdrojů dat v kognitivní hledání, která je vybavená interní logikou pro vzorkování dat, čtení dat metadat, načítání dat a serializaci dat z nativních formátů do dokumentů JSON pro následné importy.

objekty blob v Azure Storage jsou indexované pomocí indexeru Azure Kognitivní hledání Blob Storage. Tento indexer můžete vyvolat pomocí průvodce importem dat , REST API nebo sady .NET SDK. v kódu použijete tento indexer nastavením typu a poskytnutím informací o připojení, které zahrnují účet Azure Storage společně s kontejnerem objektů blob. Objekty blob můžete podmnožinou vytvořit tak, že vytvoříte virtuální adresář, který pak můžete předat jako parametr, nebo filtrováním přípony typu souboru.

Indexer "vytrhliní dokument", otevřením objektu BLOB pro kontrolu obsahu. Po připojení ke zdroji dat je prvním krokem v kanálu. v případě dat objektů blob se v takovém případě zjišťují soubory PDF, Office docs a další typy obsahu. Trhlina dokumentu s extrakcí textu je bezplatná. Pokud objekty blob obsahují obsah obrázků, budou se obrázky ignorovat, pokud nepřidáte rozšíření AI. Standardní indexování platí pouze pro textový obsah.

Indexer objektů BLOB obsahuje konfigurační parametry a podporuje sledování změn, pokud podkladová data poskytují dostatek informací. Další informace o základních funkcích najdete v části Azure kognitivní hledání BLOB Storage indexer.

Podporované úrovně přístupu

Mezi vrstvy přístupu úložiště objektů BLOB patří horká, studená a archivní. Indexery mají k dispozici pouze horkou a studenou.

Podporované typy obsahu

Spuštěním indexeru objektů BLOB v kontejneru můžete extrahovat text a metadata z následujících typů obsahu jediným dotazem:

Indexování metadat objektů BLOB

Běžný scénář, který usnadňuje řazení pomocí objektů BLOB libovolného typu obsahu, je vytvoření indexu vlastních metadat i systémových vlastností pro každý objekt BLOB. Tímto způsobem jsou informace o všech objektech blob indexovány bez ohledu na typ dokumentu uložený v indexu vyhledávací služby. Pomocí nového indexu pak můžete pokračovat v řazení, filtrování a omezující podmínky v celém obsahu služby Blob Storage.

Poznámka

Značky indexu objektu BLOB jsou nativně indexované službou BLOB Storage a jsou vystavené pro dotazování. Pokud atributy objektů BLOB (klíč/hodnota) vyžadují funkce indexování a filtrování, měly by se místo metadat používat značky indexu objektů BLOB.

další informace o indexu objektů blob najdete v tématu správa a hledání dat v Azure Blob Storage s využitím indexu objektů blob.

Indexování objektů BLOB JSON

Indexery je možné nakonfigurovat pro extrakci strukturovaného obsahu nalezeného v objektech blob, které obsahují JSON. Indexer může číst objekty blob JSON a analyzovat strukturovaný obsah do příslušných polí vyhledávacího dokumentu. Indexery mohou také přebírat objekty blob, které obsahují pole objektů JSON a mapovat jednotlivé prvky do samostatného dokumentu hledání. Můžete nastavit režim analýzy tak, aby ovlivnil typ objektu JSON vytvořený indexerem.

Prohledat obsah objektu BLOB ve vyhledávacím indexu

Výstup indexeru je index vyhledávání, který se používá pro interaktivní zkoumání pomocí bezplatného textu a filtrovaných dotazů v klientské aplikaci. V případě prvotního průzkumu a ověření obsahu doporučujeme začít v Průzkumníku služby Search na portálu a ověřit strukturu dokumentu. V Průzkumníku pro hledání můžete použít jednoduchou syntaxi dotazů, úplnou syntaxi dotazůa syntaxi výrazu Filter .

Dalším trvalým řešením je shromáždit vstupy dotazů a prezentovat odpověď jako výsledky hledání v klientské aplikaci. Následující kurz C# vysvětluje, jak vytvořit vyhledávací aplikaci: vytvořte svou první aplikaci v Azure kognitivní hledání.

Další kroky