Quickstart: Tekst vertalen en entiteiten herkennen met behulp van de wizard Gegevens importeren
Leer hoe AI-verrijking in Azure Cognitive Search taaldetectie, tekstvertaling en entiteitsherkenning toevoegt om doorzoekbare inhoud te maken in een zoekindex.
In deze quickstart gaat u de wizard Gegevens importeren uitvoeren om franse en Spaans beschrijvingen te analyseren van verschillende nationale domeinen in Spanje. Uitvoer is een doorzoekbare index met vertaalde tekst en entiteiten, die in de portal kan worden doorzocht met behulp van Search Explorer.
Ter voorbereiding maakt u enkele resources en uploadt u voorbeeldbestanden voordat u de wizard gaat uitvoeren.
Wilt u liever beginnen met code? Probeer in plaats daarvan de .NET-zelfstudie, Python-zelfstudieof REST-zelfstudie.
Vereisten
Voordat u begint, moet u beschikken over de volgende vereisten:
Een Azure-account met een actief abonnement. Gratis een account maken
Azure Cognitive Search service. Maak een service of zoek een bestaande service in uw huidige abonnement. U kunt een gratis service voor deze quickstart gebruiken.
Azure Storage account maken met Blob Storage. Maak een opslagaccount of zoek een bestaand account.
- Kies hetzelfde abonnement als u wilt dat de wizard uw opslagaccount kan vinden en de verbinding wilt instellen.
- Kies dezelfde regio als Azure Cognitive Search om bandbreedtekosten te voorkomen.
- Kies StorageV2 (algemeen gebruik V2).
Notitie
In deze quickstart wordt ook Cognitive Services ai gebruikt. Omdat de workload zo klein is, wordt de gratis verwerking (maximaal 20 transacties) van Cognitive Services achter de schermen gebruikt. Dit betekent dat u deze oefening kunt doen zonder dat u een nieuwe Cognitive Services-resource moet aanmaken.
Uw gegevens voorbereiden
Volg deze stappen om een blobcontainer in te stellen in Azure Storage om heterogene inhoudsbestanden op te slaan.
Download voorbeeldgegevens van GitHub. Er zijn meerdere gegevenssets. Gebruik de bestanden in de map spanish-folder voor deze quickstart.
Upload voorbeeldgegevens naar een blobcontainer.
- Meld u aan bij de Azure Portal zoek uw opslagaccount.
- Selecteer containers in het linkernavigatiedeelvenster.
- Maak een container met de naam 'spanish-medium'. Gebruik het standaardniveau voor openbare toegang.
- Selecteer in de container spanish-Upload om de bestanden te uploaden uit de lokale map spanish-folder.
Als het goed is, hebt u tien bestanden met Franse en Spaans beschrijvingen van een nationale stad in Spanje.
U kunt nu verdergaan met de wizard Gegevens importeren.
De wizard Gegevens importeren uitvoeren
Meld u met uw Azure-account aan bij Azure Portal.
Ga naar uw zoekservice en klik op de overzichtspagina op Gegevens importeren in de opdrachtbalk om in vier stappen cognitieve verrijking in te stellen.
Stap 1: een gegevensbron maken
Kies Verbinding maken Azure Blob-Storage om uw gegevens te Storage. Kies een bestaande verbinding met het opslagaccount en de container die u hebt gemaakt. Geef een naam op voor de gegevensbron en gebruik standaardwaarden voor de rest.
Stap 2: cognitieve vaardigheden toevoegen
Configureer vervolgens AI-verrijking om taaldetectie, tekstvertaling en entiteitsherkenning aan te roepen.
Voor deze quickstart gebruiken we de gratis Cognitive Services-resource. De voorbeeldgegevens bestaan uit 10 bestanden, dus de dagelijkse toewijzing per indexer van 20 gratis transacties op Cognitive Services is voldoende voor deze quickstart.
Vouw op dezelfde pagina Verrijkingen toevoegen uit en maak vijf selecties:
Entiteitsherkenning kiezen (personen, organisaties, locaties)
Taaldetectie en tekstvertaling kiezen
In blobs bevat het veld 'Inhoud' de inhoud van het bestand. In de voorbeeldgegevens bestaat de inhoud uit meerdere alinea's over een bepaalde ervan, in het Frans of Spaans. Granulariteit is het veld zelf. Sommige vaardigheden werken beter op kleinere stukken tekst, maar voor de vaardigheden in deze snelstart is veldgranulariteit voldoende.
Stap 3: de index configureren
Een index bevat uw doorzoekbare inhoud en de wizard Gegevens importeren kan meestal het schema voor u afleiden door een steekproef van de gegevens te nemen. In deze stap bekijkt u het gegenereerde schema en kunt u desgewenst instellingen wijzigen. Hieronder vindt u het standaardschema dat is gemaakt voor de demogegevensset.
De wizard biedt goede standaardinstellingen voor deze snelstart:
Standaardvelden zijn gebaseerd op eigenschappen voor bestaande blobs plus nieuwe velden die een verrijkingsuitvoer bevatten (bijvoorbeeld
people,organizations,locations). Gegevenstypen worden afgeleid van metagegevens en steekproeven van gegevens.Standaarddocumentsleutel is metadata_storage_path (geselecteerd omdat het veld unieke waarden bevat).
Ophaalbaar en Doorzoekbaar zijn standaardkenmerken. Doorzoekbaar maakt zoeken in de volledige tekst van een veld mogelijk. Ophaalbaar betekent dat veldwaarden kunnen worden geretourneerd in resultaten. De wizard gaat ervan uit dat deze velden ophaalbaar en doorzoekbaar moeten zijn omdat u ze hebt gemaakt via een set vaardigheden.
Schakel het filterbare selectievakje voor 'Taal' in. De wizard stelt de map niet voor u in, maar de mogelijkheid om te filteren op taal is handig in deze demo omdat er meerdere talen zijn.
Als u een veld markeert als Ophaalbaar, betekent niet dat het veld aanwezig moet zijn in de lijst met zoekresultaten. U kunt de samenstelling van zoekresultaten nauwkeurig beheren met behulp van de queryparameter $select door op te geven welke velden u wilt opnemen. Voor velden met veel tekst, zoals , is de parameter $select uw oplossing voor het vormgeven van beheersbare zoekresultaten voor de menselijke gebruikers van uw toepassing, terwijl clientcode toegang heeft tot alle informatie die nodig is via het kenmerk content Ophaalbaar.
Stap 4: de indexeerfunctie configureren
De indexeerfunctie is een belangrijke resource die het indexeerproces aandrijft. Hiermee specificeert u de naam van de gegevensbron, een doelindex en de uitvoerfrequentie. Met de wizard Gegevens importeren worden verschillende objecten gemaakt, en één hiervan is altijd een indexeerfunctie die u herhaaldelijk kunt uitvoeren.
Op de pagina Indexeerfunctie kunt u de standaardnaam accepteren en op de schemaoptie Eén keer klikken om de indexeerfunctie direct uit te voeren.
Klik op Verzenden om de indexeerfunctie te maken en tegelijkertijd uit te voeren.
Status controleren
Indexeren van cognitieve vaardigheden duurt langer dan normaal indexeren op basis van tekst. Als u de voortgang wilt controleren, gaat u naar de pagina Overzicht en selecteert u het tabblad Indexeren in het midden van de pagina.
Als u details over de uitvoeringsstatus wilt controleren, selecteert u een indexer in de lijst.
Query uitvoeren in Search Explorer
Nadat een index is gemaakt, kunt u query's uitvoeren om resultaten te retourneren. Gebruik Search Explorer in de portal voor deze taak.
Klik op de dashboardpagina van de zoekservice op Search Explorer in de opdrachtbalk.
Selecteer bovenaan Index wijzigen om de index die u hebt gemaakt te selecteren.
Voer in Queryreeks een zoekreeks in om een query uit te voeren op de index, zoals
search="picasso museum" &$select=people,organizations,locations,language,translated_text &$count=true &$filter=language eq 'fr', en selecteer vervolgens Zoeken.
Resultaten worden geretourneerd als JSON, wat uitgebreid en moeilijk te lezen kan zijn, met name in grote documenten die afkomstig zijn van Azure-blobs. Enkele tips voor zoeken in dit hulpprogramma zijn onder andere de volgende technieken:
Voeg
$selecttoe om op te geven welke velden moeten worden meegenomen in de resultaten.Gebruik CTRL-F om in de JSON te zoeken naar specifieke eigenschappen of termen.
Queryreeksen zijn hoofdlettergevoelig, dus als u het bericht 'onbekend veld' ontvangt, controleert u Velden of Indexdefinitie (JSON) om naam en aanvraag te controleren.
Resources opschonen
Wanneer u in uw eigen abonnement werkt, is het een goed idee om aan het einde van een project te bepalen of u de gemaakte resources nog steeds nodig hebt. Resources die actief blijven, kunnen u geld kosten. U kunt resources afzonderlijk verwijderen, maar u kunt ook de resourcegroep verwijderen als u de volledige resourceset wilt verwijderen.
U kunt resources vinden en beheren in de portal via de koppeling Alle resources of Resourcegroepen in het navigatiedeelvenster aan de linkerkant.
Als u een gratis service gebruikt, moet u er rekening mee houden dat u bent beperkt tot drie indexen, indexeerfuncties en gegevensbronnen. U kunt afzonderlijke items in de portal verwijderen om onder de limiet te blijven.
Volgende stappen
Cognitive Search beschikt over andere ingebouwde vaardigheden die u kunt oefenen in de wizard Gegevens importeren. Probeer als volgende stap de vaardigheden ocr en afbeeldingsanalyse uit om tekstzoekbare inhoud te maken op basis van afbeeldingsbestanden.