Rychlý start: Překlad textu a rozpoznávání entit pomocí průvodce importem dat
Zjistěte, jak rozšíření AI v Azure Cognitive Search přidává rozpoznávání jazyka, překlad textu a rozpoznávání entit k vytváření prohledávatelného obsahu v indexu vyhledávání.
V tomto rychlém startu spustíte průvodce importem dat, abyste analyzovali popisy francouzštiny a španělštiny několika národních náhonů umístěných ve Španělsko. Výstup je prohledáovatelný index obsahující přeložený text a entity, na který se můžete dotazovat na portálu pomocí Průzkumníka služby Search.
Abyste se připravili, vytvoříte několik prostředků a před spuštěním průvodce nahrajete ukázkové soubory.
Chcete raději začít s kódem? Vyzkoušejte místo toho kurz .NET,kurz k Pythonunebo kurz REST.
Požadavky
Než začnete, musí být splněny následující požadavky:
Účet Azure s aktivním předplatným. Vytvořte si účet zdarma.
Azure Cognitive Search služby. Vytvořte službu nebo v rámci aktuálního předplatného vyhledejte existující službu. Pro tento rychlý start můžete použít bezplatnou službu.
Azure Storage účet s blob Storage. Vytvořte účet úložiště nebo vyhledejte existující účet.
- Pokud chcete, aby průvodce našel váš účet úložiště a nastavil připojení, zvolte stejné předplatné.
- Pokud se chcete vyhnout poplatkům za Azure Cognitive Search šířku pásma, zvolte stejnou oblast jako u Azure Cognitive Search.
- Zvolte StorageV2 (obecné účely V2).
Poznámka
Tento rychlý start také používá Cognitive Services pro AI. Protože je úloha tak malá, Cognitive Services je na pozadí klepnutá pro bezplatné zpracování až pro 20 transakcí. To znamená, že toto cvičení můžete dokončit, aniž byste museli vytvořit další Cognitive Services prostředků.
Nastavení dat
V následujících krocích nastavte kontejner objektů blob ve službě Azure Storage ukládání heterogenních souborů obsahu.
Stáhněte si ukázková data z GitHub. Existuje více datových sad. Pro tento rychlý start použijte soubory ve složce spanish-folder.
Upload ukázková data do kontejneru objektů blob.
- Přihlaste se k Azure Portal a vyhledejte svůj účet úložiště.
- V levém navigačním podokně vyberte Kontejnery.
- Vytvořte kontejner s názvem "spanish-spanish". Použijte výchozí úroveň veřejného přístupu.
- V kontejneru "spanish-spanish" vyberte Upload a nahrajte soubory z místní složky spanish-folder.
Měli byste mít 10 souborů, které obsahují popis francouzštiny a španělštiny pro národní sádně umístěné ve Skoně.
Teď jste připraveni přejít k průvodci importem dat.
Spuštění průvodce importem dat
Přihlaste se k webu Azure Portal pomocí svého účtu Azure.
Vyhledejte vyhledávací službu a na stránce Přehled klikněte na panelu příkazů na Importovat data a nastavte kognitivní rozšiřování ve čtyřech krocích.
Krok 1 – vytvoření zdroje dat
V Připojení dat zvolte Azure Blob Storage. Zvolte existující připojení k účtu úložiště a kontejneru, který jste vytvořili. Zadejte název pro zdroj dat a u ostatních položek nechejte výchozí hodnoty.
Krok 2: Přidání kognitivních dovedností
Dále nakonfigurujte rozšíření AI tak, aby vyvolalo rozpoznávání jazyka, překlad textu a rozpoznávání entit.
V tomto rychlém startu používáme prostředek Cognitive Services Free. Ukázková data se skládají z 10 souborů, takže pro tento rychlý start stačí denní přidělení 20 bezplatných transakcí indexeru na Cognitive Services.
Na stejné stránce rozbalte přidat rozšíření a proveďte pět výběrů:
Volba rozpoznávání entit (lidé, organizace, umístění)
Volba rozpoznávání jazyka a překladu textu
V objektech blob obsahuje pole Obsah obsah souboru. V ukázkových datech je obsah více odstavců o daném městě, ve francouzštině nebo španělštině. "Členitost" je samotné pole. Některé dovednosti fungují lépe na menších kusech textu, ale pro dovednosti v tomto rychlém startu stačí členitost polí.
Krok 3 – Konfigurace indexu
Index obsahuje prohledáovatelný obsah a Průvodce importem dat vám obvykle může schéma odvodit vzorkováním dat. V tomto kroku si prohlédněte vygenerované schéma a potenciálně upravte nastavení. Níže je výchozí schéma vytvořené pro ukázkovou datovou sadu.
Pro tento rychlý start průvodce odvedl dobrou práci při nastavování rozumných výchozích hodnot:
Výchozí pole jsou založená na vlastnostech stávajících objektů blob a nová pole, která obsahují výstup rozšiřování (například
peopleorganizations, ,locations). Datové typy jsou odvozeny z metadat a vzorkováním dat.Výchozí klíč dokumentu je metadata_storage_path (vybráno, protože pole obsahuje jedinečné hodnoty).
Výchozí atributy jsou Retrievable a Searchable. Prohledávatelné umožňuje fulltextové vyhledávání v poli. Retrievable (Zobrazitelné) znamená, že ve výsledcích lze vrátit hodnoty polí. Průvodce předpokládá, že chcete, aby tato pole bylo možné načítat a prohledávat, protože jste je vytvořili prostřednictvím sady dovedností.
Zaškrtněte filtrovatelné zaškrtávací políčko jazyka. Průvodce složku pro vás nevystaví, ale možnost filtrovat podle jazyka je v této ukázce užitečná, protože existuje více jazyků.
Označení pole jako Retrievable neznamená, že toto pole musí být přítomné ve výsledcích hledání. Složení výsledků hledání můžete přesně řídit pomocí parametru dotazu $select dotazu a určit, která pole se mají zahrnout. U textových polí, jako je , je parametr $select vaším řešením pro formování spravovatelných výsledků hledání pro lidské uživatele vaší aplikace a zároveň zajistit, aby kód klienta měl přístup ke všem informacím, které potřebuje, prostřednictvím atributu content Retrievable.
Krok 4 – konfigurace indexeru
Indexer je prostředek vysoké úrovně, který řídí proces indexování. Určuje název zdroje dat, cílový index a frekvenci provádění. Průvodce importem dat vytvoří několik objektů a z nich je vždy indexer, který můžete spustit opakovaně.
Na stránce Indexer můžete přijmout výchozí název a kliknutím na možnost Jednou plán ho okamžitě spustit.
Kliknutím na Odeslat vytvořte a současně spusťte indexer.
Monitorování stavu
Indexování kognitivních dovedností trvá déle než typické indexování na základě textu. Pokud chcete sledovat průběh, přejděte na stránku Přehled a uprostřed stránky vyberte kartu Indexery.
Pokud chcete zkontrolovat podrobnosti o stavu spuštění, vyberte indexer ze seznamu.
Dotaz v Průzkumníku služby Hledání
Po vytvoření indexu můžete spustit dotazy, které vrátí výsledky. Na portálu pro tuto úlohu použijte Průzkumníka služby Search.
Na stránce řídicího panelu služby Search klikněte na panelu příkazů na Průzkumník služby Hledání.
V horní části vyberte Změnit index, abyste mohli vybrat index, který jste vytvořili.
Do pole Řetězec dotazu zadejte hledaný řetězec pro dotazování indexu, například , a
search="picasso museum" &$select=people,organizations,locations,language,translated_text &$count=true &$filter=language eq 'fr'pak vyberte Hledat.
Výsledky se vrátí ve formátu JSON, který může být podrobný a těžko čitelný, zejména u velkých dokumentů pocházejících z objektů blob Azure. Mezi tipy pro hledání v tomto nástroji patří následující techniky:
Připojte
$selecta určete, která pole se mají zahrnout do výsledků.Pomocí kombinace kláves CTRL+F vyhledejte v json konkrétní vlastnosti nebo termíny.
V řetězcích dotazů se rozlišují velká a malá písmena, takže pokud se zobrazí zpráva o neznámém poli, zkontrolujte název a velikost písmen zaškrtnutím polí nebo definice indexu (JSON).
Vyčištění prostředků
Pokud pracujete s vlastním předplatným, je vhodné vždy na konci projektu zkontrolovat, jestli budete vytvořené prostředky ještě potřebovat. Prostředky, které necháte běžet, vás stojí peníze. Můžete odstraňovat prostředky jednotlivě nebo odstraněním skupiny prostředků odstranit celou sadu prostředků najednou.
Prostředky můžete najít a spravovat na portálu pomocí odkazu Všechny prostředky nebo Skupiny prostředků v levém navigačním podokně.
Pokud používáte bezplatnou službu, mějte na paměti, že jste omezeni na tři indexy, indexery a zdroje dat. Pokud chcete zůstat pod limitem, můžete odstranit jednotlivé položky na portálu.
Další kroky
Cognitive Search má další předdefinované dovednosti, které je možné použít v průvodci importem dat. Jako další krok si vyzkoušejte dovednosti VCR a analýzy obrázků a vytvořte textem prohledáovatelný obsah ze souborů obrázků.