Rychlý start: Překlad textu a rozpoznávání entit pomocí průvodce importem dat

Zjistěte, jak rozšíření AI v Azure Cognitive Search přidává rozpoznávání jazyka, překlad textu a rozpoznávání entit k vytváření prohledávatelného obsahu v indexu vyhledávání.

V tomto rychlém startu spustíte průvodce importem dat, abyste analyzovali popisy francouzštiny a španělštiny několika národních náhonů umístěných ve Španělsko. Výstup je prohledáovatelný index obsahující přeložený text a entity, na který se můžete dotazovat na portálu pomocí Průzkumníka služby Search.

Abyste se připravili, vytvoříte několik prostředků a před spuštěním průvodce nahrajete ukázkové soubory.

Chcete raději začít s kódem? Vyzkoušejte místo toho kurz .NET,kurz k Pythonunebo kurz REST.

Požadavky

Než začnete, musí být splněny následující požadavky:

Poznámka

Tento rychlý start také používá Cognitive Services pro AI. Protože je úloha tak malá, Cognitive Services je na pozadí klepnutá pro bezplatné zpracování až pro 20 transakcí. To znamená, že toto cvičení můžete dokončit, aniž byste museli vytvořit další Cognitive Services prostředků.

Nastavení dat

V následujících krocích nastavte kontejner objektů blob ve službě Azure Storage ukládání heterogenních souborů obsahu.

  1. Stáhněte si ukázková data z GitHub. Existuje více datových sad. Pro tento rychlý start použijte soubory ve složce spanish-folder.

  2. Upload ukázková data do kontejneru objektů blob.

    1. Přihlaste se k Azure Portal a vyhledejte svůj účet úložiště.
    2. V levém navigačním podokně vyberte Kontejnery.
    3. Vytvořte kontejner s názvem "spanish-spanish". Použijte výchozí úroveň veřejného přístupu.
    4. V kontejneru "spanish-spanish" vyberte Upload a nahrajte soubory z místní složky spanish-folder.

Měli byste mít 10 souborů, které obsahují popis francouzštiny a španělštiny pro národní sádně umístěné ve Skoně.

Seznam souborů docx v kontejneru objektů blob

Teď jste připraveni přejít k průvodci importem dat.

Spuštění průvodce importem dat

  1. Přihlaste se k webu Azure Portal pomocí svého účtu Azure.

  2. Vyhledejte vyhledávací službu a na stránce Přehled klikněte na panelu příkazů na Importovat data a nastavte kognitivní rozšiřování ve čtyřech krocích.

    Snímek obrazovky s příkazem Import dat

Krok 1 – vytvoření zdroje dat

  1. V Připojení dat zvolte Azure Blob Storage. Zvolte existující připojení k účtu úložiště a kontejneru, který jste vytvořili. Zadejte název pro zdroj dat a u ostatních položek nechejte výchozí hodnoty.

    Konfigurace služby Azure Blob

Krok 2: Přidání kognitivních dovedností

Dále nakonfigurujte rozšíření AI tak, aby vyvolalo rozpoznávání jazyka, překlad textu a rozpoznávání entit.

  1. V tomto rychlém startu používáme prostředek Cognitive Services Free. Ukázková data se skládají z 10 souborů, takže pro tento rychlý start stačí denní přidělení 20 bezplatných transakcí indexeru na Cognitive Services.

    Připojení bezplatného Cognitive Services zpracování

  2. Na stejné stránce rozbalte přidat rozšíření a proveďte pět výběrů:

    Volba rozpoznávání entit (lidé, organizace, umístění)

    Volba rozpoznávání jazyka a překladu textu

    Připojení Cognitive Services vybrané služby pro sady dovedností

    V objektech blob obsahuje pole Obsah obsah souboru. V ukázkových datech je obsah více odstavců o daném městě, ve francouzštině nebo španělštině. "Členitost" je samotné pole. Některé dovednosti fungují lépe na menších kusech textu, ale pro dovednosti v tomto rychlém startu stačí členitost polí.

Krok 3 – Konfigurace indexu

Index obsahuje prohledáovatelný obsah a Průvodce importem dat vám obvykle může schéma odvodit vzorkováním dat. V tomto kroku si prohlédněte vygenerované schéma a potenciálně upravte nastavení. Níže je výchozí schéma vytvořené pro ukázkovou datovou sadu.

Pro tento rychlý start průvodce odvedl dobrou práci při nastavování rozumných výchozích hodnot:

  • Výchozí pole jsou založená na vlastnostech stávajících objektů blob a nová pole, která obsahují výstup rozšiřování (například people organizations , , locations ). Datové typy jsou odvozeny z metadat a vzorkováním dat.

  • Výchozí klíč dokumentu je metadata_storage_path (vybráno, protože pole obsahuje jedinečné hodnoty).

  • Výchozí atributy jsou Retrievable a Searchable. Prohledávatelné umožňuje fulltextové vyhledávání v poli. Retrievable (Zobrazitelné) znamená, že ve výsledcích lze vrátit hodnoty polí. Průvodce předpokládá, že chcete, aby tato pole bylo možné načítat a prohledávat, protože jste je vytvořili prostřednictvím sady dovedností.

  • Zaškrtněte filtrovatelné zaškrtávací políčko jazyka. Průvodce složku pro vás nevystaví, ale možnost filtrovat podle jazyka je v této ukázce užitečná, protože existuje více jazyků.

    Pole indexu

Označení pole jako Retrievable neznamená, že toto pole musí být přítomné ve výsledcích hledání. Složení výsledků hledání můžete přesně řídit pomocí parametru dotazu $select dotazu a určit, která pole se mají zahrnout. U textových polí, jako je , je parametr $select vaším řešením pro formování spravovatelných výsledků hledání pro lidské uživatele vaší aplikace a zároveň zajistit, aby kód klienta měl přístup ke všem informacím, které potřebuje, prostřednictvím atributu content Retrievable.

Krok 4 – konfigurace indexeru

Indexer je prostředek vysoké úrovně, který řídí proces indexování. Určuje název zdroje dat, cílový index a frekvenci provádění. Průvodce importem dat vytvoří několik objektů a z nich je vždy indexer, který můžete spustit opakovaně.

  1. Na stránce Indexer můžete přijmout výchozí název a kliknutím na možnost Jednou plán ho okamžitě spustit.

    Definice indexeru

  2. Kliknutím na Odeslat vytvořte a současně spusťte indexer.

Monitorování stavu

Indexování kognitivních dovedností trvá déle než typické indexování na základě textu. Pokud chcete sledovat průběh, přejděte na stránku Přehled a uprostřed stránky vyberte kartu Indexery.

Stav indexeru

Pokud chcete zkontrolovat podrobnosti o stavu spuštění, vyberte indexer ze seznamu.

Dotaz v Průzkumníku služby Hledání

Po vytvoření indexu můžete spustit dotazy, které vrátí výsledky. Na portálu pro tuto úlohu použijte Průzkumníka služby Search.

  1. Na stránce řídicího panelu služby Search klikněte na panelu příkazů na Průzkumník služby Hledání.

  2. V horní části vyberte Změnit index, abyste mohli vybrat index, který jste vytvořili.

  3. Do pole Řetězec dotazu zadejte hledaný řetězec pro dotazování indexu, například , a search="picasso museum" &$select=people,organizations,locations,language,translated_text &$count=true &$filter=language eq 'fr' pak vyberte Hledat.

    Řetězec dotazu v Průzkumníku služby Search

Výsledky se vrátí ve formátu JSON, který může být podrobný a těžko čitelný, zejména u velkých dokumentů pocházejících z objektů blob Azure. Mezi tipy pro hledání v tomto nástroji patří následující techniky:

  • Připojte $select a určete, která pole se mají zahrnout do výsledků.

  • Pomocí kombinace kláves CTRL+F vyhledejte v json konkrétní vlastnosti nebo termíny.

    Příkaz Průzkumníka služby Hledání

V řetězcích dotazů se rozlišují velká a malá písmena, takže pokud se zobrazí zpráva o neznámém poli, zkontrolujte název a velikost písmen zaškrtnutím polí nebo definice indexu (JSON).

Vyčištění prostředků

Pokud pracujete s vlastním předplatným, je vhodné vždy na konci projektu zkontrolovat, jestli budete vytvořené prostředky ještě potřebovat. Prostředky, které necháte běžet, vás stojí peníze. Můžete odstraňovat prostředky jednotlivě nebo odstraněním skupiny prostředků odstranit celou sadu prostředků najednou.

Prostředky můžete najít a spravovat na portálu pomocí odkazu Všechny prostředky nebo Skupiny prostředků v levém navigačním podokně.

Pokud používáte bezplatnou službu, mějte na paměti, že jste omezeni na tři indexy, indexery a zdroje dat. Pokud chcete zůstat pod limitem, můžete odstranit jednotlivé položky na portálu.

Další kroky

Cognitive Search má další předdefinované dovednosti, které je možné použít v průvodci importem dat. Jako další krok si vyzkoušejte dovednosti VCR a analýzy obrázků a vytvořte textem prohledáovatelný obsah ze souborů obrázků.