Rychlý Start: použití analýzy OCR a obrázků pomocí Průvodce importem dat
Přečtěte si, jak rozšíření AI v Azure Kognitivní hledání přidává optické rozpoznávání znaků (OCR) a analýzu obrázků k vytváření prohledávatelných obsahu z obrazových souborů.
V tomto rychlém startu spustíte průvodce importem dat pro analýzu vizuálního obsahu v souborech jpg. Obsah se skládá z fotografií značek. Výstupem je index s možností prohledávání, který obsahuje popisky, značky a text identifikovaný pomocí optického rozpoznávání znaků, který je Queryable na portálu pomocí Průzkumníka vyhledávání.
Pro přípravu si vytvoříte několik prostředků a nahrajete ukázkové soubory před spuštěním průvodce.
Chcete začít s kódem? Vyzkoušejte místo toho kurz k rozhraní .NET, kurz Pythonnebo kurz REST .
Požadavky
Než začnete, vydejte tyto požadavky:
Účet Azure s aktivním předplatným. Vytvořte si účet zdarma.
Služba Azure Kognitivní hledání. Vytvořte službu nebo vyhledejte existující službu v rámci aktuálního předplatného. Pro tento rychlý Start můžete použít bezplatnou službu.
Azure Storage účet s Blob Storage. Vytvořte účet úložiště nebo Najděte existující účet.
- Vyberte stejné předplatné, pokud chcete, aby průvodce našel účet úložiště a nastavil připojení.
- Vyberte stejnou oblast jako Azure Kognitivní hledání, abyste se vyhnuli poplatkům za šířku pásma.
- Vyberte StorageV2 (obecné účely v2).
Poznámka
V tomto rychlém startu se také pro AI používá Cognitive Services . Vzhledem k tomu, že úloha je tak malá, Cognitive Services po dobu bezplatného zpracování po dobu až 20 transakcí klepnuli na pozadí. To znamená, že můžete dokončit toto cvičení, aniž byste museli vytvořit další prostředek Cognitive Services.
Nastavení dat
v následujících krocích nastavte kontejner objektů blob v Azure Storage, aby se ukládaly heterogenní soubory obsahu.
Stáhněte si ukázková data z GitHub. Existuje více datových sad. Pro tento rychlý Start použijte soubory ve složce unsplash-images\jpg-Signs .
Upload ukázkových dat do kontejneru objektů blob.
- Přihlaste se k Azure Portal a vyhledejte svůj účet úložiště.
- V levém navigačním podokně vyberte kontejnery.
- Vytvořte kontejner s názvem "známky". Použijte výchozí úroveň veřejného přístupu.
- v kontejneru značky vyberte Upload , aby se soubory nahrály z místní složky unsplash-images\jpg-signs .
Měli byste mít 10 souborů obsahujících fotografie značek.
Existuje druhá podsložka, která obsahuje orientační budovy. Pokud chcete připojit Cognitive Services klíč, můžete zahrnout tyto soubory a také zjistit, jak analýza obrázku funguje v obrazových souborech, které neobsahují vložený text. Klíč je nutný pro úlohy, které překračují volné plnění.
Nyní jste připraveni na přesun Průvodce importem dat.
Spuštění Průvodce importem dat
Přihlaste se k webu Azure Portal pomocí svého účtu Azure.
Vyhledejte vyhledávací službu a na stránce Přehled klikněte na tlačítko importovat data na panelu příkazů a nastavte obohacení vnímání ve čtyřech krocích.
Krok 1 – Vytvoření zdroje dat
v Připojení k vašim datům vyberte Azure Blob Storage. Vyberte existující připojení k účtu úložiště a kontejneru, který jste vytvořili. Zadejte název pro zdroj dat a u ostatních položek nechejte výchozí hodnoty.
Krok 2 – Přidání dovedností rozpoznávání
Dále nakonfigurujte rozšíření AI na vyvolání optického rozpoznávání OCR a obrázku.
V tomto rychlém startu používáme bezplatný Cognitive Services prostředek. Ukázková data se skládají z 19 souborů, takže denního plnění každého indexeru 20 bezplatných transakcí v Cognitive Services je pro tento rychlý Start dostačující.
Na stejné stránce rozbalte Přidat rozšíření a proveďte výběry stromové struktury:
Povolit optické rozpoznávání znaků a sloučit veškerý text do pole merged_content.
Vyberte možnost generovat značky z obrázků a generovat popisky z imagí.
V případě analýzy obrázků jsou obrázky rozdělené z textu během odhalujícího dokumentu. Pole merged_content znovu přidruží text a obrázky do kanálu rozšíření AI.
Krok 3 – konfigurace indexu
Index obsahuje obsah s možností prohledávání a průvodce importem dat může obvykle odvodit schéma za vás vzorkováním dat. V tomto kroku si prohlédněte vygenerované schéma a případně opravte všechna nastavení. Níže je uvedené výchozí schéma vytvořené pro ukázkovou datovou sadu.
Pro tento rychlý start průvodce odvedl dobrou práci při nastavování rozumných výchozích hodnot:
Výchozí pole jsou založena na vlastnostech existujících objektů BLOB a nových polích, která obsahují výstup obohacení (například,
text,layoutTextimageCaption). Datové typy jsou odvozeny z metadat a vzorkování dat.Výchozí klíč dokumentu je metadata_storage_path (vybráno, protože pole obsahuje jedinečné hodnoty).
Výchozí atributy lze získat a prohledávatelné. Prohledávatelné umožňuje fulltextové hledání pole. Možnost získatelné znamená, že hodnoty polí lze vracet ve výsledcích. Průvodce předpokládá, že chcete tato pole získat a prohledávat, protože jste je vytvořili přes dovednosti.
Označení pole jako k dispozici neznamená, že pole musí být ve výsledcích hledání. Složení výsledků hledání můžete přesně řídit pomocí parametru $Select dotazu k určení, která pole se mají zahrnout. Pro pole s velkým textem jako content je parametr $Select vaše řešení pro formování výsledků hledání spravovatelných pro lidské uživatele vaší aplikace, zatímco kód klienta má přístup ke všem informacím, které potřebuje prostřednictvím atributu k získání.
Krok 4 – Konfigurace indexeru
Indexer je prostředek vysoké úrovně, který řídí proces indexování. Určuje název zdroje dat, cílový index a četnost provádění. Průvodce importem dat vytvoří několik objektů a je vždycky indexer, který můžete opakovaně spouštět.
Na stránce indexer můžete přijmout výchozí název a kliknout na možnost jednou naplánovat, aby se spustila hned.
Kliknutím na Odeslat vytvořte a souběžně spusťte indexer.
Stav monitorování
Indexování dovedností pro rozpoznávání trvá déle než typické indexování založené na textu. Pokud chcete sledovat průběh, navštivte stránku Přehled a vyberte kartu indexery uprostřed stránky.
Chcete-li zjistit podrobnosti o stavu spuštění, vyberte indexer ze seznamu.
Dotaz v Průzkumníku služby Hledání
Po vytvoření indexu můžete spustit dotazy a vracet výsledky. Na portálu použijte Průzkumníka služby Search pro tuto úlohu.
Na stránce řídicího panelu služby Search klikněte na panelu příkazů na Průzkumník služby Hledání.
V horní části vyberte Změnit index, abyste mohli vybrat index, který jste vytvořili.
Do pole řetězec dotazu zadejte hledaný řetězec pro dotaz na index, například
search=sign&searchFields=imageTags&$select=text,imageCaption,imageTags&$count=true, a pak vyberte Hledat.
Výsledky jsou vraceny jako JSON, které mohou být podrobné a těžko čitelný, zejména ve velkých dokumentech pocházejících z objektů blob Azure. Několik tipů pro hledání v tomto nástroji zahrnuje následující postupy:
Připojit
$selecta určete, která pole se mají zahrnout do výsledků.Připojovat
searchFieldse k oboru fulltextového vyhledávání do konkrétních polí.Pomocí kombinace kláves CTRL+F vyhledejte v json konkrétní vlastnosti nebo termíny.
V řetězcích dotazů se rozlišují velká a malá písmena, takže pokud se zobrazí zpráva o neznámém poli, zkontrolujte název a velikost písmen zaškrtnutím polí nebo definice indexu (JSON).
Vyčištění prostředků
Pokud pracujete s vlastním předplatným, je vhodné vždy na konci projektu zkontrolovat, jestli budete vytvořené prostředky ještě potřebovat. Prostředky, které necháte běžet, vás stojí peníze. Můžete odstraňovat prostředky jednotlivě nebo odstraněním skupiny prostředků odstranit celou sadu prostředků najednou.
Prostředky můžete najít a spravovat na portálu pomocí odkazu Všechny prostředky nebo Skupiny prostředků v levém navigačním podokně.
Pokud používáte bezplatnou službu, mějte na paměti, že jste omezeni na tři indexy, indexery a zdroje dat. Pokud chcete zůstat pod limitem, můžete odstranit jednotlivé položky na portálu.
Další kroky
Cognitive Search má další předdefinované dovednosti, které je možné použít v průvodci importem dat. V dalším rychlém startu se používá rozpoznávání entit, rozpoznávání jazyka a překlad textu.