Snabbstart: Översätta text och identifiera entiteter med hjälp av guiden Importera data
Lär dig hur AI-berikning i Azure Cognitive Search lägger till språkidentifiering, textöversättning och entitetsigenkänning för att skapa sökbart innehåll i ett sökindex.
I den här snabbstarten kör du guiden Importera data för att analysera franska och spanska beskrivningar av flera nationella restauranger i Spanien. Utdata är ett sökbart index som innehåller översatt text och entiteter som kan frågas i portalen med sökutforskaren.
För att förbereda dig skapar du några resurser och laddar upp exempelfiler innan du kör guiden.
Föredrar du att börja med kod? Prova självstudien om .NET, Python eller REST i stället.
Förutsättningar
Innan du börjar måste du ha följande förutsättningar på plats:
Ett Azure-konto med en aktiv prenumeration. Skapa ett konto utan kostnad.
Azure Cognitive Search tjänst. Skapa en tjänst eller hitta en befintlig tjänst under din aktuella prenumeration. Du kan använda en kostnadsfri tjänst för den här snabbstarten.
Azure Storage konto med Blob Storage. Skapa ett lagringskonto eller hitta ett befintligt konto.
- Välj samma prenumeration om du vill att guiden ska hitta ditt lagringskonto och konfigurera anslutningen.
- Välj samma region som Azure Cognitive Search för att undvika bandbreddskostnader.
- Välj StorageV2 (generell användning V2).
Anteckning
Den här snabbstarten använder Cognitive Services för AI. Eftersom arbetsbelastningen är så liten Cognitive Services i bakgrunden för kostnadsfri bearbetning för upp till 20 transaktioner. Det innebär att du kan slutföra den här övningen utan att behöva skapa ytterligare en Cognitive Services resurs.
Konfigurera dina data
I följande steg ställer du in en blobcontainer i Azure Storage för att lagra heterogena innehållsfiler.
Ladda ned exempeldata från GitHub. Det finns flera datamängder. Använd filerna i mappen spanish-folder för den här snabbstarten.
Upload exempeldata till en blobcontainer.
- Logga in på Azure Portal och leta upp ditt lagringskonto.
- I det vänstra navigeringsfönstret väljer du Containrar.
- Skapa en container med namnet "spanish-tainer". Använd standardnivån för offentlig åtkomst.
- I containern "spanish-container" väljer du Upload för att ladda upp filerna från mappen spanish-folder.
Du bör ha 10 filer som innehåller franska och spanska beskrivningar av nationella myndigheter i Spanien.
Nu är du redo att gå vidare till guiden Importera data.
Kör guiden Importera data
Logga in på Azure-portalen med ditt Azure-konto.
Leta upp din söktjänst och klicka på Importera data i kommandofältet på sidan Översikt för att konfigurera kognitiv berikning i fyra steg.
Steg 1 – Skapa en datakälla
I Anslut till dina data väljer du Azure Blob Storage. Välj en befintlig anslutning till lagringskontot och containern som du skapade. Namnge datakällan och lämna standardvärdena för resten av inställningarna.
Steg 2 – Lägga till kognitiva kunskaper
Konfigurera sedan AI-berikning för att anropa språkidentifiering, textöversättning och entitetsigenkänning.
I den här snabbstarten använder vi den kostnadsfria Cognitive Services resursen. Exempeldata består av 10 filer, så den dagliga, per indexerar-tilldelning av 20 kostnadsfria transaktioner på Cognitive Services räcker för den här snabbstarten.
Expandera Lägg till berikande på samma sida och gör fem val:
Välj entitetsigenkänning (personer, organisationer, platser)
Välj språkidentifiering och textöversättning
I blobar innehåller fältet "Innehåll" innehållet i filen. I exempeldata är innehållet flera stycken om en viss pommes, antingen franska eller spanska. "Kornigheten" är själva fältet. Vissa kunskaper fungerar bättre på mindre textbitar, men för kunskaperna i den här snabbstarten räcker det med fältkornighet.
Steg 3 – Konfigurera indexet
Ett index innehåller ditt sökbara innehåll och guiden Importera data kan vanligtvis dra slutsatser om schemat för dig genom att sampling av data. I det här steget granskar du det genererade schemat och ändrar eventuellt inställningarna. Nedan visas standardschemat som skapats för demodatauppsättningen.
I den här snabbstarten passar guidens standardinställningar bra:
Standardfält baseras på egenskaper för befintliga blobar plus nya fält som ska innehålla berikningsutdata (till exempel
people,organizations,locations). Datatyper härförs från metadata och av datasampling.Standarddokumentnyckeln är metadata_storage_path (markerad eftersom fältet innehåller unika värden).
Standardattributen är Hämtningsbar och Sökbar. Sökbar tillåter fulltextsökning i ett fält. Hämtningsbar innebär att fältvärden kan returneras i resultat. Guiden förutsätter att du vill att dessa fält ska vara hämtningsbara och sökbara, eftersom du har skapat dem via en kompetensuppsättning.
Markera den filtrerbara kryssrutan för "Språk". Guiden anger inte mappen åt dig, men möjligheten att filtrera efter språk är användbar i den här demonstrationen eftersom det finns flera språk.
Att ett fält markeras som Hämtningsbart innebär inte att fältet måste finnas i sökresultaten. Du kan detaljstyra sammansättningen av sökresultat med hjälp av frågeparametern $select om du vill ange vilka fält som ska inkluderas. För texttunga fält som är $select-parametern din lösning för att forma hanterbara sökresultat för mänskliga användare av ditt program, samtidigt som klientkoden har åtkomst till all information som behövs via attributet content Hämtningsbar.
Steg 4 – Konfigurera indexeraren
Indexeraren är en övergripande resurs som styr indexeringen. Indexeraren definierar datakällans namn, ett målindex och körningsfrekvensen. Guiden Importera data skapar flera objekt och av dem är alltid en indexerare som du kan köra upprepade gånger.
På sidan Indexerare kan du acceptera standardnamnet och klicka på alternativet Schema en gång för att köra det direkt.
Klicka på Skicka för att skapa och köra indexeraren samtidigt.
Övervaka status
Indexering av kognitiva kunskaper tar längre tid än vanlig textbaserad indexering. Om du vill övervaka förloppet går du till sidan Översikt och väljer fliken Indexerare mitt på sidan.
Om du vill kontrollera information om körningsstatus väljer du en indexerare i listan.
Fråga i Sökutforskaren
När ett index har skapats kan du köra frågor för att returnera resultat. I portalen använder du Sökutforskaren för den här uppgiften.
Klicka på Sökutforskaren i kommandofältet på söktjänstens instrumentpanelsida.
Välj Ändra index längst upp och välj det index som du skapade.
I Frågesträng anger du en söksträng för att fråga indexet, till
search="picasso museum" &$select=people,organizations,locations,language,translated_text &$count=true &$filter=language eq 'fr'exempel , och väljer sedan Sök.
Resultaten returneras som JSON, vilket kan vara utförligt och svårt att läsa, särskilt i stora dokument som kommer från Azure-blobar. Några tips för att söka i det här verktyget är följande tekniker:
Lägg till
$selectför att ange vilka fält som ska inkluderas i resultatet.Använd CTRL-F för att söka i JSON efter specifika egenskaper eller termer.
Frågesträngar är fallkänsliga, så om du får ett meddelande om ett "okänt fält" kontrollerar du namn och ärende genom att markera Fält eller Indexdefinition (JSON).
Rensa resurser
När du arbetar i din egen prenumeration kan det dock vara klokt att i slutet av ett projekt kontrollera om du fortfarande behöver de resurser som du skapade. Resurser som fortsätter att köras kostar pengar. Du kan ta bort resurser individuellt eller ta bort resursgruppen om du vill ta bort hela uppsättningen resurser.
Du kan hitta och hantera resurser i portalen med hjälp av länken Alla resurser eller Resursgrupper i det vänstra navigeringsfönstret.
Om du använder en kostnadsfri tjänst bör du komma ihåg att du är begränsad till tre index, indexerare och datakällor. Du kan ta bort enskilda objekt i portalen för att hålla dig under gränsen.
Nästa steg
Cognitive Search har andra inbyggda kunskaper som kan utnyttjas i guiden Importera data. Som nästa steg kan du prova ocr- och bildanalyskunskaperna för att skapa textsökbart innehåll från bildfiler.