Snabbstart: Tillämpa OCR och bildanalys med hjälp av guiden Importera data

Lär dig hur AI-berikning i Azure Cognitive Search lägger till optisk teckenläsning (OCR) och bildanalys för att skapa sökbart innehåll från bildfiler.

I den här snabbstarten kör du guiden Importera data för att analysera visuellt innehåll i JPG-filer. Innehållet består av fotografier av skyltar. Utdata är ett sökbart index som innehåller undertexter, taggar och text som identifieras via OCR. Alla kan frågas i portalen med sökutforskaren.

För att förbereda dig skapar du några resurser och laddar upp exempelfiler innan du kör guiden.

Föredrar du att börja med kod? Prova självstudien om .NET, Python eller REST i stället.

Förutsättningar

Innan du börjar måste du ha följande förutsättningar på plats:

Anteckning

Den här snabbstarten använder Cognitive Services för AI. Eftersom arbetsbelastningen är så liten Cognitive Services i bakgrunden för kostnadsfri bearbetning för upp till 20 transaktioner. Det innebär att du kan slutföra den här övningen utan att behöva skapa ytterligare en Cognitive Services resurs.

Konfigurera dina data

I följande steg ställer du in en blobcontainer i Azure Storage för att lagra heterogena innehållsfiler.

  1. Ladda ned exempeldata från GitHub. Det finns flera datamängder. Använd filerna i mappen unsplash-images\jpg-signs för den här snabbstarten.

  2. Upload exempeldata till en blobcontainer.

    1. Logga in på Azure Portal och leta upp ditt lagringskonto.
    2. I det vänstra navigeringsfönstret väljer du Containrar.
    3. Skapa en container med namnet "signs". Använd standardnivån för offentlig åtkomst.
    4. I containern "signs" väljer du Upload för att ladda upp filerna från din lokala unsplash-images\jpg-signs-mapp.

Du bör ha 10 filer som innehåller fotografier av tecken.

Det finns en andra undermapp som innehåller landmärken. Om du vill bifoga en Cognitive Services nyckelkan du även inkludera dessa filer för att se hur bildanalys fungerar över bildfiler som inte innehåller inbäddad text. Nyckeln är nödvändig för jobb som överskrider den kostnadsfria tilldelningen.

Nu är du redo att gå vidare till guiden Importera data.

Kör guiden Importera data

  1. Logga in på Azure-portalen med ditt Azure-konto.

  2. Leta upp din söktjänst och klicka på Importera data i kommandofältet på sidan Översikt för att konfigurera kognitiv berikning i fyra steg.

    Skärmbild av kommandot Importera data

Steg 1 – Skapa en datakälla

  1. I Anslut till dina data väljer du Azure Blob Storage. Välj en befintlig anslutning till lagringskontot och containern som du skapade. Namnge datakällan och lämna standardvärdena för resten av inställningarna.

    Konfiguration av Azure-blob

Steg 2 – Lägga till kognitiva kunskaper

Konfigurera sedan AI-berikning för att anropa OCR och bildanalys.

  1. I den här snabbstarten använder vi den kostnadsfria Cognitive Services resursen. Exempeldata består av 19 filer, så den dagliga, per indexerar-tilldelning av 20 kostnadsfria transaktioner på Cognitive Services räcker för den här snabbstarten.

    Bifoga kostnadsfri Cognitive Services bearbetning

  2. Expandera Lägg till berikande på samma sida och gör trädval:

    Aktivera OCR och sammanfoga all text merged_content ett fält.

    Välj "Generera taggar från bilder" och "Generera bildtexter från bilder".

    Bifoga Cognitive Services välj tjänster för kompetensuppsättningen

    För bildanalys delas bilder upp från text under dokumentknckning. Fältet "merged_content" associerar text och bilder på nytt i AI-berikningspipelinen.

Steg 3 – Konfigurera indexet

Ett index innehåller ditt sökbara innehåll och guiden Importera data kan vanligtvis dra slutsatser om schemat för dig genom att sampling av data. I det här steget granskar du det genererade schemat och ändrar eventuellt inställningarna. Nedan visas standardschemat som skapats för demodatauppsättningen.

I den här snabbstarten passar guidens standardinställningar bra:

  • Standardfält baseras på egenskaper för befintliga blobar plus nya fält som ska innehålla berikningsutdata (till exempel text , layoutText , imageCaption ). Datatyper härförs från metadata och av datasampling.

  • Standarddokumentnyckeln är metadata_storage_path (markerad eftersom fältet innehåller unika värden).

  • Standardattributen är Hämtningsbar och Sökbar. Sökbar tillåter fulltextsökning i ett fält. Hämtningsbar innebär att fältvärden kan returneras i resultat. Guiden förutsätter att du vill att dessa fält ska vara hämtningsbara och sökbara, eftersom du har skapat dem via en kompetensuppsättning.

    Indexfält

Att ett fält markeras som Hämtningsbart innebär inte att fältet måste finnas i sökresultaten. Du kan detaljstyra sammansättningen av sökresultat med hjälp av frågeparametern $select om du vill ange vilka fält som ska inkluderas. För texttunga fält som är $select-parametern din lösning för att forma hanterbara sökresultat för mänskliga användare av ditt program, samtidigt som klientkoden har åtkomst till all information som behövs via attributet content Hämtningsbar.

Steg 4 – Konfigurera indexeraren

Indexeraren är en övergripande resurs som styr indexeringen. Indexeraren definierar datakällans namn, ett målindex och körningsfrekvensen. Guiden Importera data skapar flera objekt och av dem är alltid en indexerare som du kan köra upprepade gånger.

  1. På sidan Indexerare kan du acceptera standardnamnet och klicka på alternativet Schema en gång för att köra det direkt.

    Definition av indexerare

  2. Klicka på Skicka för att skapa och köra indexeraren samtidigt.

Övervaka status

Indexering av kognitiva kunskaper tar längre tid än vanlig textbaserad indexering. Om du vill övervaka förloppet går du till sidan Översikt och väljer fliken Indexerare mitt på sidan.

Indexerarstatus

Om du vill kontrollera information om körningsstatus väljer du en indexerare i listan.

Fråga i Sökutforskaren

När ett index har skapats kan du köra frågor för att returnera resultat. I portalen använder du Sökutforskaren för den här uppgiften.

  1. Klicka på Sökutforskaren i kommandofältet på söktjänstens instrumentpanelsida.

  2. Välj Ändra index längst upp och välj det index som du skapade.

  3. I Frågesträng anger du en söksträng för att fråga indexet, till search=sign&searchFields=imageTags&$select=text,imageCaption,imageTags&$count=true exempel , och väljer sedan Sök.

    Frågesträng i Sökutforskaren

Resultaten returneras som JSON, vilket kan vara utförligt och svårt att läsa, särskilt i stora dokument som kommer från Azure-blobar. Några tips för att söka i det här verktyget är följande tekniker:

  • Lägg till $select för att ange vilka fält som ska ingå i resultatet.

  • Lägg till searchField i fulltextsökning i omfång i specifika fält.

  • Använd CTRL-F för att söka i JSON efter specifika egenskaper eller termer.

    Exempel med Sökutforskaren

Frågesträngar är fallkänsliga, så om du får ett meddelande om ett "okänt fält" kontrollerar du namn och ärende genom att markera Fält eller Indexdefinition (JSON).

Rensa resurser

När du arbetar i din egen prenumeration kan det dock vara klokt att i slutet av ett projekt kontrollera om du fortfarande behöver de resurser som du skapade. Resurser som fortsätter att köras kostar pengar. Du kan ta bort resurser individuellt eller ta bort resursgruppen om du vill ta bort hela uppsättningen resurser.

Du kan hitta och hantera resurser i portalen med hjälp av länken Alla resurser eller Resursgrupper i det vänstra navigeringsfönstret.

Om du använder en kostnadsfri tjänst bör du komma ihåg att du är begränsad till tre index, indexerare och datakällor. Du kan ta bort enskilda objekt i portalen för att hålla dig under gränsen.

Nästa steg

Cognitive Search har andra inbyggda kunskaper som kan utnyttjas i guiden Importera data. Nästa snabbstart använder entitetsigenkänning, språkidentifiering och textöversättning.