Quickstart: Een cognitieve vaardighedenset van Azure Cognitive Search maken in de Azure-portal

In deze quickstart wordt de ondersteuning van vaardighedensets in de portal gedemonstreerd, waarin wordt getoond hoe optische tekenherkenning (OCR) en entiteitsherkenning kunnen worden gebruikt om doorzoekbare tekstinhoud te maken op basis van afbeeldingen en toepassingsbestanden.

Ter voorbereiding maakt u enkele resources en uploadt u voorbeeldafbeeldingen en toepassingsinhoudsbestanden. Zodra alles gereed is, voert u de wizard Gegevens importeren uit in de Azure-portal om alles samen op te halen. Het eindresultaat is een doorzoekbare index gevuld met gegevens die zijn gemaakt met AI-verwerking, en die u in de portal kunt doorzoeken (Search Explorer).

Wilt u liever met code beginnen? Zie Zelfstudie: REST en AI gebruiken om doorzoekbare inhoud te genereren uit Azure-blobs of een Zelfstudie: .NET en AI gebruiken om in plaats daarvan doorzoekbare inhoud van Azure-blobs te genereren.

Vereisten

Voordat u begint, moet u beschikken over de volgende vereisten:

Notitie

Deze quickstart maakt ook gebruik van Azure Cognitive Services voor de AI. Omdat de workload zo klein is, wordt de gratis verwerking (maximaal 20 transacties) van Cognitive Services achter de schermen gebruikt. Dit betekent dat u deze oefening kunt doen zonder dat u een nieuwe Cognitive Services-resource moet aanmaken.

Uw gegevens voorbereiden

Volg deze stappen om een blobcontainer in te stellen in Azure Storage om heterogene inhoudsbestanden op te slaan.

  1. Download de voorbeeldgegevens die bestaan uit een kleine set van verschillende typen bestanden. Pak de bestanden uit.

  2. Een Azure Storage-account maken of een bestaand account zoeken.

    • Kies dezelfde regio als Azure Cognitive Search om bandbreedtekosten te voorkomen.

    • Kies storageV2 (algemeen gebruik V2).

  3. Open de Blob-servicepagina's en maak een container. U kunt het standaardniveau voor openbare toegang gebruiken.

  4. Klik in Container op Uploaden om de voorbeeldbestanden te uploaden die u in de eerste stap hebt gedownload. Zoals u ziet, hebt u een breed scala aan inhoudstypen, waaronder afbeeldingen en toepassingsbestanden waarvoor zoeken in volledige tekst niet mogelijk is in de oorspronkelijke indeling.

    Bronbestanden in Azure Blob Storage

U kunt nu verdergaan met de wizard Gegevens importeren.

De wizard Gegevens importeren uitvoeren

  1. Meld u met uw Azure-account aan bij Azure Portal.

  2. Ga naar uw zoekservice en klik op de overzichtspagina op Gegevens importeren in de opdrachtbalk om in vier stappen cognitieve verrijking in te stellen.

    Opdracht Gegevens importeren

Stap 1: een gegevensbron maken

  1. Kies in Verbinden met uw gegevens de optie Azure Blob-opslag, en selecteer het account en de container die u hebt gemaakt. Geef een naam op voor de gegevensbron en gebruik standaardwaarden voor de rest.

    Azure-blobconfiguratie

    Ga door naar de volgende pagina.

Stap 2: cognitieve vaardigheden toevoegen

Configureer vervolgens AI-verrijking om OCR, afbeeldingsanalyse en verwerking van natuurlijke taal aan te roepen.

  1. Voor deze quickstart gebruiken we de gratis Cognitive Services-resource. De voorbeeldgegevens bestaan uit 14 bestanden. De gratis service-eenheid van 20 transacties op Cognitive Services is dus voldoende voor deze quickstart.

    Cognitive Services koppelen: basisservice koppelen

  2. Vouw Verrijkingen toevoegen uit en maak vier selecties.

    Schakel OCR in om de vaardigheden voor afbeeldingsanalyse toe te voegen aan de wizardpagina.

    Stel granulariteit in op Pagina's om tekst op te splitsen in kleinere segmenten. Verschillende tekstvaardigheden zijn beperkt tot 5 kB invoer.

    Kies vaardigheden voor entiteitsherkenning (personen, organisaties en locaties) en afbeeldingsanalyse.

    Cognitive Services koppelen: services voor vaardighedenset selecteren

    Ga door naar de volgende pagina.

Stap 3: de index configureren

Een index bevat uw doorzoekbare inhoud, en met de wizard Gegevens importeren kan doorgaans het schema voor u worden gemaakt door een steekproef van de gegevensbron te nemen. In deze stap bekijkt u het gegenereerde schema en kunt u desgewenst instellingen wijzigen. Hieronder ziet u het standaardschema dat is gemaakt voor de demo-Blob-gegevensset.

De wizard biedt goede standaardinstellingen voor deze snelstart:

  • Standaardvelden zijn gebaseerd op eigenschappen voor bestaande blobs plus nieuwe velden die een verrijkingsuitvoer bevatten (bijvoorbeeld people, organizations, locations). Gegevenstypen worden afgeleid van metagegevens en steekproeven van gegevens.

  • Standaarddocumentsleutel is metadata_storage_path (geselecteerd omdat het veld unieke waarden bevat).

  • Ophaalbaar en Doorzoekbaar zijn standaardkenmerken. Doorzoekbaar maakt zoeken in de volledige tekst van een veld mogelijk. Ophaalbaar betekent dat veldwaarden kunnen worden geretourneerd in resultaten. De wizard gaat ervan uit dat deze velden ophaalbaar en doorzoekbaar moeten zijn omdat u ze hebt gemaakt via een set vaardigheden.

    Indexvelden

Let op het doorgehaalde vinkje en het vraagteken in de kolom Ophaalbaar voor het veld content. Voor blob-documenten met veel tekst bevat het veld content het grootste deel van het bestand, mogelijk wel duizenden regels. Een veld zoals dit is onpraktisch in zoekresultaten en u moet dit veld uitsluiten voor deze demo.

Als u de inhoud van een bestand wilt doorgeven aan clientcode, moet Ophaalbaar geselecteerd blijven. Anders kunt u dit kenmerk uitschakelen voor content als de uitgepakte elementen (zoals people, organizations, locations, enzovoort) voldoende zijn.

Als u een veld markeert als Ophaalbaar, betekent niet dat het veld aanwezig moet zijn in de lijst met zoekresultaten. U kunt de samenstelling van zoekresultaten nauwkeurig beheren met behulp van de queryparameter $select door op te geven welke velden u wilt opnemen. Voor velden met veel tekst zoals content, is de parameter $select de oplossing voor het aanbieden van beheersbare zoekresultaten aan de gebruikers van uw toepassing, terwijl clientcode via het kenmerk Ophaalbaar toegang heeft tot alle gegevens die nodig zijn.

Ga door naar de volgende pagina.

Stap 4: de indexeerfunctie configureren

De indexeerfunctie is een belangrijke resource die het indexeerproces aandrijft. Hiermee specificeert u de naam van de gegevensbron, een doelindex en de uitvoerfrequentie. Met de wizard Gegevens importeren worden verschillende objecten gemaakt, en één hiervan is altijd een indexeerfunctie die u herhaaldelijk kunt uitvoeren.

  1. Op de pagina Indexeerfunctie kunt u de standaardnaam accepteren en op de schemaoptie Eén keer klikken om de indexeerfunctie direct uit te voeren.

    Definitie van de indexeerfunctie

  2. Klik op Verzenden om de indexeerfunctie te maken en tegelijkertijd uit te voeren.

Status controleren

Indexering van de cognitieve vaardigheden vergt meer tijd dan gebruikelijke indexering op basis van tekst met name OCR en afbeeldingsanalyse. Als u de voortgang wilt bewaken, gaat u naar de overzichtspagina en klikt u op Indexeerfuncties in het midden van de pagina.

Azure Cognitive Search-melding

Waarschuwingen krijgen normaal gesproken het brede scala aan inhoudstypen. Sommige inhoudstypen zijn niet geldig voor bepaalde vaardigheden en bij lagere lagen zijn indexeringslimieten gebruikelijk. Meldingen over afkappingen van 32.000 tekens zijn bijvoorbeeld een indexeringslimiet in de Gratis laag. Als u deze demo hebt uitgevoerd in een hogere laag, verdwijnen veel waarschuwingen over afkappingen.

Als u waarschuwingen of fouten wilt controleren, klikt u op Waarschuwingsstatus in de lijst Indexeerfuncties om de pagina Uitvoeringsgeschiedenis te openen.

Klik op deze pagina nogmaals op de Waarschuwingsstatus om een lijst met waarschuwingen te zien, vergelijkbaar met de lijst hieronder.

Lijst met indexeerfunctiewaarschuwingen

Details worden weergegeven wanneer u op een specifieke statusregel klikt. Deze waarschuwing geeft aan dat het samenvoegen is gestopt na het bereiken van een maximumdrempel (deze specifieke PDF is groot).

Waarschuwingsdetails

Query uitvoeren in Search Explorer

Nadat een index is gemaakt, kunt u query's uitvoeren om resultaten te retourneren. Gebruik Search Explorer in de portal voor deze taak.

  1. Klik op de dashboardpagina van de zoekservice op Search Explorer in de opdrachtbalk.

  2. Selecteer bovenaan Index wijzigen om de index die u hebt gemaakt te selecteren.

  3. Voer een zoekopdracht in om een query op de index toe te passen, zoals search=Microsoft&$select=people,organizations,locations,imageTags.

Resultaten worden geretourneerd als JSON, wat uitgebreid en moeilijk te lezen kan zijn, met name in grote documenten die afkomstig zijn van Azure-blobs. Enkele tips voor zoeken in dit hulpprogramma zijn onder andere de volgende technieken:

  • Voeg $select toe om op te geven welke velden moeten worden meegenomen in de resultaten.
  • Gebruik CTRL-F om in de JSON te zoeken naar specifieke eigenschappen of termen.

Queryreeksen zijn hoofdlettergevoelig, dus als u het bericht 'onbekend veld' ontvangt, controleert u Velden of Indexdefinitie (JSON) om naam en aanvraag te controleren.

Voorbeeld Search Explorer

Opgedane kennis

U hebt nu uw eerste vaardighedenset gemaakt en belangrijke concepten geleerd die nuttig zijn om een prototype te maken van een verrijkte zoekoplossing met behulp van uw eigen gegevens.

Een van de belangrijke concepten die we wilden overbrengen, is de afhankelijkheid van Azure-gegevensbronnen. Een vaardighedenset is gebonden aan een indexeerfunctie, en indexeerfuncties zijn Azure- en bronspecifiek. Hoewel in deze quickstart gebruik wordt Azure Blob Storage, zijn andere Azure-gegevensbronnen mogelijk. Zie Indexeerfuncties in Azure Cognitive Search voor meer informatie.

Een ander belangrijk concept is dat vaardigheden werken via inhoudstypen, en wanneer ze met heterogene inhoud werken, wordt sommige invoer overgeslagen. Bovendien kunnen grote bestanden of velden de indexeerfunctielimieten van uw servicelaag overschrijden. Het is normaal dat er waarschuwingen worden weergegeven wanneer deze gebeurtenissen optreden.

Uitvoer wordt naar een zoekindex geleid, en er is een toewijzing tussen naam/waarde-paren die zijn gemaakt tijdens het indexeren, en afzonderlijke velden in uw index. Intern stelt de portal aantekeningen in en definieert een set vaardigheden, waarmee de volgorde van bewerkingen en de algemene stroom wordt bepaald. Deze stappen zijn verborgen in de portal, maar wanneer u begint met het schrijven van code worden deze concepten belangrijk.

Ten slotte hebt u geleerd dat inhoud kan worden gecontroleerd door de index te doorzoeken. Azure Cognitive Search biedt eigenlijk een doorzoekbare index, waarin u query's kunt uitvoeren met behulp van de eenvoudige of volledig uitgebreide querysyntaxis. Een index met verrijkte velden werkt zoals elke andere index. Als u standaardanalyse of aangepaste analyse, scoreprofielen, synoniemen, meervoudige filters, geografisch zoeken of een andere functie van Azure Cognitive Search wilt opnemen, kunt u dat gewoon doen.

Resources opschonen

Wanneer u in uw eigen abonnement werkt, is het een goed idee om aan het einde van een project te bepalen of u de gemaakte resources nog steeds nodig hebt. Resources die actief blijven, kunnen u geld kosten. U kunt resources afzonderlijk verwijderen, maar u kunt ook de resourcegroep verwijderen als u de volledige resourceset wilt verwijderen.

U kunt resources vinden en beheren in de portal via de koppeling Alle resources of Resourcegroepen in het navigatiedeelvenster aan de linkerkant.

Als u een gratis service gebruikt, moet u er rekening mee houden dat u bent beperkt tot drie indexen, indexeerfuncties en gegevensbronnen. U kunt afzonderlijke items in de portal verwijderen om onder de limiet te blijven.

Volgende stappen

U kunt vaardighedensets maken met behulp van de portal, .NET SDK of REST API. Probeer REST API met behulp van Postman en meer voorbeeldgegevens om uw kennis te verfijnen.

Tip

Als u deze oefening wilt herhalen of een ander AI-verrijkingsscenario wilt uitproberen, verwijdert u de indexeerfunctie in de portal. Door de indexeerfunctie te verwijderen komt de teller van het aantal gratis dagelijkse transacties weer op nul te staan voor Cognitive Services-verwerking.