Snabbstart: Översätta text och identifiera entiteter med hjälp av guiden Importera data

Lär dig hur AI-berikning i Azure Cognitive Search lägger till språkidentifiering, textöversättning och entitetsigenkänning för att skapa sökbart innehåll i ett sökindex.

I den här snabbstarten kör du guiden Importera data för att analysera franska och spanska beskrivningar av flera nationella restauranger i Spanien. Utdata är ett sökbart index som innehåller översatt text och entiteter som kan frågas i portalen med sökutforskaren.

För att förbereda dig skapar du några resurser och laddar upp exempelfiler innan du kör guiden.

Föredrar du att börja med kod? Prova självstudien om .NET, Python eller REST i stället.

Förutsättningar

Innan du börjar måste du ha följande förutsättningar på plats:

Anteckning

Den här snabbstarten använder Cognitive Services för AI. Eftersom arbetsbelastningen är så liten Cognitive Services i bakgrunden för kostnadsfri bearbetning för upp till 20 transaktioner. Det innebär att du kan slutföra den här övningen utan att behöva skapa ytterligare en Cognitive Services resurs.

Konfigurera dina data

I följande steg ställer du in en blobcontainer i Azure Storage för att lagra heterogena innehållsfiler.

  1. Ladda ned exempeldata från GitHub. Det finns flera datamängder. Använd filerna i mappen spanish-folder för den här snabbstarten.

  2. Upload exempeldata till en blobcontainer.

    1. Logga in på Azure Portal och leta upp ditt lagringskonto.
    2. I det vänstra navigeringsfönstret väljer du Containrar.
    3. Skapa en container med namnet "spanish-tainer". Använd standardnivån för offentlig åtkomst.
    4. I containern "spanish-container" väljer du Upload för att ladda upp filerna från mappen spanish-folder.

Du bör ha 10 filer som innehåller franska och spanska beskrivningar av nationella myndigheter i Spanien.

Lista över docx-filer i en blobcontainer

Nu är du redo att gå vidare till guiden Importera data.

Kör guiden Importera data

  1. Logga in på Azure-portalen med ditt Azure-konto.

  2. Leta upp din söktjänst och klicka på Importera data i kommandofältet på sidan Översikt för att konfigurera kognitiv berikning i fyra steg.

    Skärmbild av kommandot Importera data

Steg 1 – Skapa en datakälla

  1. I Anslut till dina data väljer du Azure Blob Storage. Välj en befintlig anslutning till lagringskontot och containern som du skapade. Namnge datakällan och lämna standardvärdena för resten av inställningarna.

    Konfiguration av Azure-blob

Steg 2 – Lägga till kognitiva kunskaper

Konfigurera sedan AI-berikning för att anropa språkidentifiering, textöversättning och entitetsigenkänning.

  1. I den här snabbstarten använder vi den kostnadsfria Cognitive Services resursen. Exempeldata består av 10 filer, så den dagliga, per indexerar-tilldelning av 20 kostnadsfria transaktioner på Cognitive Services räcker för den här snabbstarten.

    Bifoga kostnadsfri Cognitive Services bearbetning

  2. Expandera Lägg till berikande på samma sida och gör fem val:

    Välj entitetsigenkänning (personer, organisationer, platser)

    Välj språkidentifiering och textöversättning

    Bifoga Cognitive Services välj tjänster för kompetensuppsättningen

    I blobar innehåller fältet "Innehåll" innehållet i filen. I exempeldata är innehållet flera stycken om en viss pommes, antingen franska eller spanska. "Kornigheten" är själva fältet. Vissa kunskaper fungerar bättre på mindre textbitar, men för kunskaperna i den här snabbstarten räcker det med fältkornighet.

Steg 3 – Konfigurera indexet

Ett index innehåller ditt sökbara innehåll och guiden Importera data kan vanligtvis dra slutsatser om schemat för dig genom att sampling av data. I det här steget granskar du det genererade schemat och ändrar eventuellt inställningarna. Nedan visas standardschemat som skapats för demodatauppsättningen.

I den här snabbstarten passar guidens standardinställningar bra:

  • Standardfält baseras på egenskaper för befintliga blobar plus nya fält som ska innehålla berikningsutdata (till exempel people , organizations , locations ). Datatyper härförs från metadata och av datasampling.

  • Standarddokumentnyckeln är metadata_storage_path (markerad eftersom fältet innehåller unika värden).

  • Standardattributen är Hämtningsbar och Sökbar. Sökbar tillåter fulltextsökning i ett fält. Hämtningsbar innebär att fältvärden kan returneras i resultat. Guiden förutsätter att du vill att dessa fält ska vara hämtningsbara och sökbara, eftersom du har skapat dem via en kompetensuppsättning.

  • Markera den filtrerbara kryssrutan för "Språk". Guiden anger inte mappen åt dig, men möjligheten att filtrera efter språk är användbar i den här demonstrationen eftersom det finns flera språk.

    Indexfält

Att ett fält markeras som Hämtningsbart innebär inte att fältet måste finnas i sökresultaten. Du kan detaljstyra sammansättningen av sökresultat med hjälp av frågeparametern $select om du vill ange vilka fält som ska inkluderas. För texttunga fält som är $select-parametern din lösning för att forma hanterbara sökresultat för mänskliga användare av ditt program, samtidigt som klientkoden har åtkomst till all information som behövs via attributet content Hämtningsbar.

Steg 4 – Konfigurera indexeraren

Indexeraren är en övergripande resurs som styr indexeringen. Indexeraren definierar datakällans namn, ett målindex och körningsfrekvensen. Guiden Importera data skapar flera objekt och av dem är alltid en indexerare som du kan köra upprepade gånger.

  1. På sidan Indexerare kan du acceptera standardnamnet och klicka på alternativet Schema en gång för att köra det direkt.

    Definition av indexerare

  2. Klicka på Skicka för att skapa och köra indexeraren samtidigt.

Övervaka status

Indexering av kognitiva kunskaper tar längre tid än vanlig textbaserad indexering. Om du vill övervaka förloppet går du till sidan Översikt och väljer fliken Indexerare mitt på sidan.

Indexerarstatus

Om du vill kontrollera information om körningsstatus väljer du en indexerare i listan.

Fråga i Sökutforskaren

När ett index har skapats kan du köra frågor för att returnera resultat. I portalen använder du Sökutforskaren för den här uppgiften.

  1. Klicka på Sökutforskaren i kommandofältet på söktjänstens instrumentpanelsida.

  2. Välj Ändra index längst upp och välj det index som du skapade.

  3. I Frågesträng anger du en söksträng för att fråga indexet, till search="picasso museum" &$select=people,organizations,locations,language,translated_text &$count=true &$filter=language eq 'fr' exempel , och väljer sedan Sök.

    Frågesträng i Sökutforskaren

Resultaten returneras som JSON, vilket kan vara utförligt och svårt att läsa, särskilt i stora dokument som kommer från Azure-blobar. Några tips för att söka i det här verktyget är följande tekniker:

  • Lägg till $select för att ange vilka fält som ska inkluderas i resultatet.

  • Använd CTRL-F för att söka i JSON efter specifika egenskaper eller termer.

    Exempel med Sökutforskaren

Frågesträngar är fallkänsliga, så om du får ett meddelande om ett "okänt fält" kontrollerar du namn och ärende genom att markera Fält eller Indexdefinition (JSON).

Rensa resurser

När du arbetar i din egen prenumeration kan det dock vara klokt att i slutet av ett projekt kontrollera om du fortfarande behöver de resurser som du skapade. Resurser som fortsätter att köras kostar pengar. Du kan ta bort resurser individuellt eller ta bort resursgruppen om du vill ta bort hela uppsättningen resurser.

Du kan hitta och hantera resurser i portalen med hjälp av länken Alla resurser eller Resursgrupper i det vänstra navigeringsfönstret.

Om du använder en kostnadsfri tjänst bör du komma ihåg att du är begränsad till tre index, indexerare och datakällor. Du kan ta bort enskilda objekt i portalen för att hålla dig under gränsen.

Nästa steg

Cognitive Search har andra inbyggda kunskaper som kan utnyttjas i guiden Importera data. Som nästa steg kan du prova ocr- och bildanalyskunskaperna för att skapa textsökbart innehåll från bildfiler.