Quickstart: OCR- en afbeeldingsanalyse toepassen met behulp van de wizard Gegevens importeren

Leer hoe AI-verrijking in Azure Cognitive Search ocr (Optical Character Recognition) en afbeeldingsanalyse toevoegt om doorzoekbare inhoud te maken op basis van afbeeldingsbestanden.

In deze quickstart gaat u de wizard Gegevens importeren uitvoeren om visuele inhoud in JPG-bestanden te analyseren. De inhoud bestaat uit foto's van tekens. Uitvoer is een doorzoekbare index met bijschriften, tags en tekst die zijn geïdentificeerd via OCR, die allemaal in de portal kunnen worden doorzocht met behulp van Search Explorer.

Ter voorbereiding maakt u enkele resources en uploadt u voorbeeldbestanden voordat u de wizard gaat uitvoeren.

Wilt u liever met code beginnen? Probeer in plaats daarvan de .NET-zelfstudie, Python-zelfstudieof REST-zelfstudie.

Vereisten

Voordat u begint, moet u beschikken over de volgende vereisten:

Notitie

In deze quickstart wordt ook Cognitive Services ai gebruikt. Omdat de workload zo klein is, wordt de gratis verwerking (maximaal 20 transacties) van Cognitive Services achter de schermen gebruikt. Dit betekent dat u deze oefening kunt doen zonder dat u een nieuwe Cognitive Services-resource moet aanmaken.

Uw gegevens voorbereiden

Volg deze stappen om een blobcontainer in te stellen in Azure Storage om heterogene inhoudsbestanden op te slaan.

  1. Download voorbeeldgegevens van GitHub. Er zijn meerdere gegevenssets. Gebruik de bestanden in de map unsplash-images\jpg-signs voor deze snelstart.

  2. Upload voorbeeldgegevens naar een blobcontainer.

    1. Meld u aan bij de Azure Portal zoek uw opslagaccount.
    2. Selecteer containers in het linkernavigatiedeelvenster.
    3. Maak een container met de naam 'signs'. Gebruik het standaardniveau voor openbare toegang.
    4. Selecteer in de container 'signs' de Upload om de bestanden te uploaden vanuit uw lokale map unsplash-images\jpg-signs.

U moet 10 bestanden met foto's van tekens hebben.

Er is een tweede submap met oriëntatiepunten in gebouwen. Als u een sleutelCognitive Services toevoegen, kunt u deze bestanden ook opnemen om te zien hoe afbeeldingsanalyse werkt met afbeeldingsbestanden die geen ingesloten tekst bevatten. De sleutel is nodig voor taken die de gratis toewijzing overschrijden.

U kunt nu verdergaan met de wizard Gegevens importeren.

De wizard Gegevens importeren uitvoeren

  1. Meld u met uw Azure-account aan bij Azure Portal.

  2. Ga naar uw zoekservice en klik op de overzichtspagina op Gegevens importeren in de opdrachtbalk om in vier stappen cognitieve verrijking in te stellen.

    Schermopname van de opdracht Gegevens importeren

Stap 1: een gegevensbron maken

  1. In Verbinding maken gegevens kiest u Azure Blob Storage. Kies een bestaande verbinding met het opslagaccount en de container die u hebt gemaakt. Geef een naam op voor de gegevensbron en gebruik standaardwaarden voor de rest.

    Azure-blobconfiguratie

Stap 2: cognitieve vaardigheden toevoegen

Configureer vervolgens AI-verrijking om OCR en afbeeldingsanalyse aan te roepen.

  1. Voor deze quickstart gebruiken we de gratis Cognitive Services-resource. De voorbeeldgegevens bestaan uit 19 bestanden, dus de dagelijkse toewijzing per indexer van 20 gratis transacties op Cognitive Services is voldoende voor deze quickstart.

    Gratis Cognitive Services koppelen

  2. Vouw op dezelfde pagina Verrijkingen toevoegen uit en maak structuurselecties:

    Schakel OCR in en voeg alle tekst samen in merged_content veld.

    Kies Tags genereren van afbeeldingen en Bijschriften genereren op afbeeldingen.

    Cognitive Services koppelen: services voor vaardighedenset selecteren

    Voor afbeeldingsanalyse worden afbeeldingen uit tekst gesplitst tijdens het gekraakte document. Het veld merged_content koppelt tekst en afbeeldingen opnieuw aan de AI-verrijkingspijplijn.

Stap 3: de index configureren

Een index bevat uw doorzoekbare inhoud en de wizard Gegevens importeren kan meestal het schema voor u afleiden door een steekproef van de gegevens te nemen. In deze stap bekijkt u het gegenereerde schema en kunt u desgewenst instellingen wijzigen. Hieronder vindt u het standaardschema dat is gemaakt voor de demogegevensset.

De wizard biedt goede standaardinstellingen voor deze snelstart:

  • Standaardvelden zijn gebaseerd op eigenschappen voor bestaande blobs plus nieuwe velden die een verrijkingsuitvoer bevatten (bijvoorbeeld text, layoutText, imageCaption). Gegevenstypen worden afgeleid van metagegevens en steekproeven van gegevens.

  • Standaarddocumentsleutel is metadata_storage_path (geselecteerd omdat het veld unieke waarden bevat).

  • Ophaalbaar en Doorzoekbaar zijn standaardkenmerken. Doorzoekbaar maakt zoeken in de volledige tekst van een veld mogelijk. Ophaalbaar betekent dat veldwaarden kunnen worden geretourneerd in resultaten. De wizard gaat ervan uit dat deze velden ophaalbaar en doorzoekbaar moeten zijn omdat u ze hebt gemaakt via een set vaardigheden.

    Indexvelden

Als u een veld markeert als Ophaalbaar, betekent niet dat het veld aanwezig moet zijn in de lijst met zoekresultaten. U kunt de samenstelling van zoekresultaten nauwkeurig beheren met behulp van de queryparameter $select door op te geven welke velden u wilt opnemen. Voor velden met veel tekst, zoals , is de parameter $select uw oplossing voor het vormgeven van beheersbare zoekresultaten voor de menselijke gebruikers van uw toepassing, terwijl clientcode toegang heeft tot alle informatie die nodig is via het kenmerk content Ophaalbaar.

Stap 4: de indexeerfunctie configureren

De indexeerfunctie is een belangrijke resource die het indexeerproces aandrijft. Hiermee specificeert u de naam van de gegevensbron, een doelindex en de uitvoerfrequentie. Met de wizard Gegevens importeren worden verschillende objecten gemaakt, en één hiervan is altijd een indexeerfunctie die u herhaaldelijk kunt uitvoeren.

  1. Op de pagina Indexeerfunctie kunt u de standaardnaam accepteren en op de schemaoptie Eén keer klikken om de indexeerfunctie direct uit te voeren.

    Definitie van de indexeerfunctie

  2. Klik op Verzenden om de indexeerfunctie te maken en tegelijkertijd uit te voeren.

Status controleren

Indexeren van cognitieve vaardigheden duurt langer dan normaal indexeren op basis van tekst. Als u de voortgang wilt controleren, gaat u naar de pagina Overzicht en selecteert u het tabblad Indexeren in het midden van de pagina.

Indexeringsstatus

Als u details over de uitvoeringsstatus wilt controleren, selecteert u een indexer in de lijst.

Query uitvoeren in Search Explorer

Nadat een index is gemaakt, kunt u query's uitvoeren om resultaten te retourneren. Gebruik Search Explorer in de portal voor deze taak.

  1. Klik op de dashboardpagina van de zoekservice op Search Explorer in de opdrachtbalk.

  2. Selecteer bovenaan Index wijzigen om de index die u hebt gemaakt te selecteren.

  3. Voer in Queryreeks een zoekreeks in om een query uit te voeren op de index, zoals search=sign&searchFields=imageTags&$select=text,imageCaption,imageTags&$count=true , en selecteer vervolgens Zoeken.

    Queryreeks in Search Explorer

Resultaten worden geretourneerd als JSON, wat uitgebreid en moeilijk te lezen kan zijn, met name in grote documenten die afkomstig zijn van Azure-blobs. Enkele tips voor zoeken in dit hulpprogramma zijn onder andere de volgende technieken:

  • Voeg $select toe om op te geven welke velden moeten worden meegenomen in de resultaten.

  • Toevoegen om zoeken searchField in volledige tekst te doorzoeken op specifieke velden.

  • Gebruik CTRL-F om in de JSON te zoeken naar specifieke eigenschappen of termen.

    Voorbeeld Search Explorer

Queryreeksen zijn hoofdlettergevoelig, dus als u het bericht 'onbekend veld' ontvangt, controleert u Velden of Indexdefinitie (JSON) om naam en aanvraag te controleren.

Resources opschonen

Wanneer u in uw eigen abonnement werkt, is het een goed idee om aan het einde van een project te bepalen of u de gemaakte resources nog steeds nodig hebt. Resources die actief blijven, kunnen u geld kosten. U kunt resources afzonderlijk verwijderen, maar u kunt ook de resourcegroep verwijderen als u de volledige resourceset wilt verwijderen.

U kunt resources vinden en beheren in de portal via de koppeling Alle resources of Resourcegroepen in het navigatiedeelvenster aan de linkerkant.

Als u een gratis service gebruikt, moet u er rekening mee houden dat u bent beperkt tot drie indexen, indexeerfuncties en gegevensbronnen. U kunt afzonderlijke items in de portal verwijderen om onder de limiet te blijven.

Volgende stappen

Cognitive Search beschikt over andere ingebouwde vaardigheden die u kunt oefenen in de wizard Gegevens importeren. In de volgende snelstart wordt gebruikgemaakt van entiteitsherkenning, taaldetectie en tekstvertaling.