Aan de slag met AI-verrijkingGetting started with AI enrichment

AI-verrijking is een mogelijkheid van Azure Cognitive Search indexering die wordt gebruikt om tekst te extra heren uit afbeeldingen, blobs en andere ongestructureerde gegevens bronnen.AI enrichment is a capability of Azure Cognitive Search indexing used to extract text from images, blobs, and other unstructured data sources. Verrijking en extractie maken uw inhoud in een index of kennis archiefbeter doorzoekbaar.Enrichment and extraction make your content more searchable in an index or knowledge store. Extractie en verrijking worden geïmplementeerd met cognitieve vaardig heden die zijn gekoppeld aan de indexerings pijplijn.Extraction and enrichment are implemented using cognitive skills attached to the indexing pipeline. Cognitieve vaardig heden die in de service zijn ingebouwd, vallen in deze categorieën:Cognitive skills built into the service fall into these categories:

  • Vaardig heden voor de verwerking van natuurlijke taal zijn onder andere entiteits herkenning, taal detectie, extractie van sleutel zinnen, tekst manipulatie, sentiment detectieen PII-detectie.Natural language processing skills include entity recognition, language detection, key phrase extraction, text manipulation, sentiment detection, and PII detection. Met deze vaardig heden wordt ongestructureerde tekst toegewezen als Doorzoek bare en filter bare velden in een index.With these skills, unstructured text is mapped as searchable and filterable fields in an index.

  • Vaardig heden voor de verwerking van afbeeldingen zijn onder andere optische teken herkenning (OCR) en het identificeren van visuele functies, zoals gezichts detectie, afbeeldings interpretatie, afbeeldings herkenning (beroemde personen en bezienswaardigheden) of kenmerken zoals afbeeldings stand.Image processing skills include Optical Character Recognition (OCR) and identification of visual features, such as facial detection, image interpretation, image recognition (famous people and landmarks) or attributes like image orientation. Deze vaardig heden maken tekst representaties van afbeeldings inhoud, waardoor deze kan worden doorzocht met behulp van de query mogelijkheden van Azure Cognitive Search.These skills create text representations of image content, making it searchable using the query capabilities of Azure Cognitive Search.

Diagram van verrijkings pijplijnEnrichment pipeline diagram

Cognitieve vaardig heden in azure Cognitive Search zijn gebaseerd op vooraf getrainde machine learning modellen in Cognitive Services-API's: Computer Vision en Text Analytics.Cognitive skills in Azure Cognitive Search are based on pre-trained machine learning models in Cognitive Services APIs: Computer Vision and Text Analytics.

De verwerking van natuurlijke taal en afbeelding wordt toegepast tijdens de fase van gegevens opname, met resultaten die deel uitmaken van de samen stelling van een document in een Doorzoek bare index in azure Cognitive Search.Natural language and image processing is applied during the data ingestion phase, with results becoming part of a document's composition in a searchable index in Azure Cognitive Search. Gegevens worden als een Azure-gegevensset gedistribueerd en vervolgens gepusht via een indexerings pijplijn met behulp van de ingebouwde vaardig heden die u nodig hebt.Data is sourced as an Azure data set and then pushed through an indexing pipeline using whichever built-in skills you need. De architectuur kan worden uitgebreid als de ingebouwde vaardig heden niet voldoende zijn, kunt u aangepaste vaardig heden maken en koppelen om aangepaste verwerking te integreren.The architecture is extensible so if the built-in skills are not sufficient, you can create and attach custom skills to integrate custom processing. Voor beelden hiervan zijn een aangepaste entity module of document classificatie gericht op een specifiek domein, zoals financiën, weten schappelijke publicaties of medicijnen.Examples might be a custom entity module or document classifier targeting a specific domain such as finance, scientific publications, or medicine.

Wanneer moet u AI-verrijking gebruiken?When to use AI enrichment

U kunt overwegen ingebouwde cognitieve vaardig heden te gebruiken als uw onbewerkte inhoud ongestructureerde tekst, afbeeldings inhoud of inhoud bevat die taal detectie en-omzetting nodig heeft.You should consider using built-in cognitive skills if your raw content is unstructured text, image content, or content that needs language detection and translation. Het Toep assen van AI via de ingebouwde cognitieve vaardig heden kan deze inhoud ontgrendelen, waardoor de waarde en het hulp programma in uw zoek-en data Science-apps worden verhoogd.Applying AI through the built-in cognitive skills can unlock this content, increasing its value and utility in your search and data science apps.

Daarnaast kunt u overwegen een aangepaste vaardigheid toe te voegen als u een open source-, derden-of code van een andere partij hebt die u wilt integreren in de pijp lijn.Additionally, you might consider adding a custom skill if you have open-source, third-party, or first-party code that you'd like to integrate into the pipeline. Classificatie modellen die opvallende kenmerken van verschillende document typen identificeren, vallen in deze categorie, maar elk pakket dat waarde toevoegt aan uw inhoud, kan worden gebruikt.Classification models that identify salient characteristics of various document types fall into this category, but any package that adds value to your content could be used.

Meer informatie over ingebouwde vaardig hedenMore about built-in skills

Een vaardig heden die is geassembleerd met behulp van ingebouwde vaardig heden, is goed geschikt voor de volgende toepassings scenario's:A skillset that's assembled using built-in skills is well suited for the following application scenarios:

  • Gescande documenten (JPEG) waarvoor u Zoek opdrachten in volledige tekst wilt uitvoeren.Scanned documents (JPEG) that you want to make full-text searchable. U kunt een OCR-vaardigheid (Optical Character Recognition) koppelen om tekst uit JPEG-bestanden te identificeren, uit te pakken en op te nemen.You can attach an optical character recognition (OCR) skill to identify, extract, and ingest text from JPEG files.

  • Pdf's met gecombineerde afbeelding en tekst.PDFs with combined image and text. Tekst in Pdf's kan worden geëxtraheerd tijdens het indexeren zonder het gebruik van stappen voor het verrijken, maar het toevoegen van afbeeldingen en natuurlijke taal verwerking levert vaak een beter resultaat op dan een standaard indexering.Text in PDFs can be extracted during indexing without the use of enrichment steps, but the addition of image and natural language processing can often produce a better outcome than a standard indexing provides.

  • Meertalige inhoud waartegen u taal detectie en mogelijk tekst omzetting wilt Toep assen.Multi-lingual content against which you want to apply language detection and possibly text translation.

  • Ongestructureerde of semi-gestructureerde documenten met inhoud met inherente betekenis of context die in het grotere document is verborgen.Unstructured or semi-structured documents containing content that has inherent meaning or context that is hidden in the larger document.

    Blobs in het bijzonder bevatten vaak een grote inhoud die in één veld wordt verpakt.Blobs in particular often contain a large body of content that is packed into a singled "field". Door de vaardig heden van afbeeldingen en natuurlijke taal verwerking aan een Indexeer functie toe te voegen, kunt u nieuwe informatie maken die extant is in de onbewerkte inhoud, maar niet op andere wijze als DISTINCT-velden.By attaching image and natural language processing skills to an indexer, you can create new information that is extant in the raw content, but not otherwise surfaced as distinct fields. Sommige kant-en-klare cognitieve vaardig heden die u kunnen helpen: sleutel woordgroepen extractie, sentiment analyse en entiteits herkenning (personen, organisaties en locaties).Some ready-to-use built-in cognitive skills that can help: key phrase extraction, sentiment analysis, and entity recognition (people, organizations, and locations).

    Daarnaast kunnen ingebouwde vaardig heden ook worden gebruikt om inhoud te herstructureren met behulp van tekst splitsen, samen voegen en vorm bewerkingen.Additionally, built-in skills can also be used restructure content through text split, merge, and shape operations.

Meer informatie over aangepaste vaardig hedenMore about custom skills

Aangepaste vaardig heden kunnen complexere scenario's ondersteunen, zoals het herkennen van formulieren of het detecteren van aangepaste entiteiten met behulp van een model dat u opgeeft en inpakt in de aangepaste vaardigheids webinterface.Custom skills can support more complex scenarios, such as recognizing forms, or custom entity detection using a model that you provide and wrap in the custom skill web interface. Enkele voor beelden van aangepaste vaardig heden zijn formulieren Recognizer, integratie van de Bing entiteiten zoeken-APIen aangepaste entiteits herkenning.Several examples of custom skills include Forms Recognizer, integration of the Bing Entity Search API, and custom entity recognition.

Stappen in een verrijkings pijplijnSteps in an enrichment pipeline

Een verrijkings pijplijn is gebaseerd op Indexeer functies.An enrichment pipeline is based on indexers. Indexeer functies vullen een index op basis van veld-naar-veld Toewijzingen tussen de index en uw gegevens bron voor het kraken van documenten.Indexers populate an index based on field-to-field mappings between the index and your data source for document cracking. Vaardig heden, die nu zijn gekoppeld aan Indexeer functies, onderscheppen en verrijkt documenten volgens de vakkennisset (en) die u definieert.Skills, now attached to indexers, intercept and enrich documents according to the skillset(s) you define. Zodra de index is geïndexeerd, hebt u toegang tot inhoud via Zoek opdrachten via alle query typen die door Azure Cognitive Search worden ondersteund.Once indexed, you can access content via search requests through all query types supported by Azure Cognitive Search. Als u geen ervaring hebt met Indexeer functies, begeleidt deze sectie u stapsgewijs door de stappen.If you are new to indexers, this section walks you through the steps.

Stap 1: de fase verbinding en document opkrakenStep 1: Connection and document cracking phase

Aan het begin van de pijp lijn hebt u ongestructureerde tekst-of niet-tekst inhoud (zoals afbeeldingen, gescande documenten of JPEG-bestanden).At the start of the pipeline, you have unstructured text or non-text content (such as images, scanned documents, or JPEG files). Gegevens moeten aanwezig zijn in een Azure Data Storage-service die toegankelijk is voor een Indexeer functie.Data must exist in an Azure data storage service that can be accessed by an indexer. Indexeer functies kunnen bron documenten ' barsten ' om tekst uit de bron gegevens op te halen.Indexers can "crack" source documents to extract text from source data. Het kraken van documenten is het proces van het uitpakken of maken van tekst inhoud van niet-tekst bronnen tijdens het indexeren.Document cracking is the process of extracting or creating text content from non-text sources during indexing.

De fase voor het kraken van documentenDocument cracking phase

De volgende bronnen worden ondersteund: Azure Blob-opslag, Azure-tabel opslag, Azure SQL Database en Azure Cosmos DB.Supported sources include Azure blob storage, Azure table storage, Azure SQL Database, and Azure Cosmos DB. Inhoud op basis van tekst kan worden geëxtraheerd uit de volgende bestands typen: Pdf's, Word, Power Point, CSV-bestanden.Text-based content can be extracted from the following file types: PDFs, Word, PowerPoint, CSV files. Zie ondersteunde indelingenvoor de volledige lijst.For the full list, see Supported formats. Het indexeren vergt enige tijd met een kleine, representatieve gegevensset en bouwt deze vervolgens incrementeel op als uw oplossing is gerijpt.Indexing takes time so start with a small, representative data set and then build it up incrementally as your solution matures.

Stap 2: cognitieve vaardig heden en verrijkings faseStep 2: Cognitive skills and enrichment phase

Verrijking wordt uitgevoerd met cognitieve vaardig heden die atomische bewerkingen uitvoeren.Enrichment is performed with cognitive skills performing atomic operations. Als u bijvoorbeeld een PDF hebt gekraakt, kunt u entiteits herkenning, taal detectie of sleutel woordgroepen extractie Toep assen om nieuwe velden in uw index te maken die niet standaard beschikbaar zijn in de bron.For example, once you have cracked a PDF, you can apply entity recognition, language detection, or key phrase extraction to produce new fields in your index that are not available natively in the source. Samen wordt de verzameling van de vaardig heden die in uw pijp lijn wordt gebruikt, een vakkennisgenoemd.Altogether, the collection of skills used in your pipeline is called a skillset.

Verrijkings faseEnrichment phase

Een vaardig heden is gebaseerd op ingebouwde cognitieve vaardig heden of aangepaste vaardig heden die u verstrekt en maakt verbinding met de vakkennisset.A skillset is based on built-in cognitive skills or custom skills you provide and connect to the skillset. Een vaardighedenset kan mini maal of zeer complex zijn en bepaalt niet alleen het type verwerking, maar ook de volg orde van de bewerkingen.A skillset can be minimal or highly complex, and determines not only the type of processing, but also the order of operations. Een vaardig heden plus de veld toewijzingen die zijn gedefinieerd als onderdeel van een Indexeer functie, geeft volledig de verrijkings pijplijn op.A skillset plus the field mappings defined as part of an indexer fully specifies the enrichment pipeline. Zie een vaardig heden definiërenvoor meer informatie over het samen stellen van al deze onderdelen.For more information about pulling all of these pieces together, see Define a skillset.

Intern genereert de pijp lijn een verzameling verrijkte documenten.Internally, the pipeline generates a collection of enriched documents. U kunt bepalen welke delen van de verrijkte documenten moeten worden toegewezen aan Indexeer bare velden in uw zoek index.You can decide which parts of the enriched documents should be mapped to indexable fields in your search index. Als u bijvoorbeeld de sleutel woord extractie en de vaardig heden voor entiteits herkenning hebt toegepast, worden deze nieuwe velden onderdeel van het verrijkte document en kunnen ze worden toegewezen aan velden in uw index.For example, if you applied the key phrase extraction and the entity recognition skills, those new fields would become part of the enriched document, and can be mapped to fields on your index. Zie annotaties voor meer informatie over invoer/uitvoer-vormingen.See Annotations to learn more about input/output formations.

Een knowledgeStore-element toevoegen om verrijkingen op te slaanAdd a knowledgeStore element to save enrichments

Search rest API-Version = 2019-05 -06-preview breidt vaardig heden uit knowledgeStore met een definitie die een Azure Storage-verbinding en projecties biedt die beschrijven hoe de verrijkingen worden opgeslagen.Search REST api-version=2019-05-06-Preview extends skillsets with a knowledgeStore definition that provides an Azure storage connection and projections that describe how the enrichments are stored. Dit is een aanvulling op uw index.This is in addition to your index. In een Standard AI-pijp lijn zijn verrijkte documenten onwaar, die alleen tijdens het indexeren worden gebruikt en vervolgens worden verwijderd.In a standard AI pipeline, enriched documents are transitory, used only during indexing and then discarded. In het kennis archief worden verrijkte documenten bewaard.With knowledge store, enriched documents are preserved. Zie voor meer informatie kennis archief (preview).For more information, see Knowledge store (preview).

Stap 3: zoek index en op query's gebaseerde toegangStep 3: Search index and query-based access

Wanneer de verwerking is voltooid, hebt u een zoek index die bestaat uit verrijkte documenten, met volledige tekst doorzoekbaar in azure Cognitive Search.When processing is finished, you have a search index consisting of enriched documents, fully text-searchable in Azure Cognitive Search. Bij het uitvoeren van een query op de index wordt uitgelegd hoe ontwikkel aars en gebruikers toegang hebben tot de verrijkte inhoud die door de pijp lijn wordt gegenereerd.Querying the index is how developers and users access the enriched content generated by the pipeline.

Index met zoek pictogramIndex with search icon

De index is net als andere die u kunt maken voor Azure Cognitive Search: u kunt een aanvulling vormen op aangepaste analyse functies, query's voor fuzzy zoeken uitvoeren, een gefilterde zoek opdracht toevoegen, of experimenteren met Score profielen om de vorm van de zoek resultaten te wijzigen.The index is like any other you might create for Azure Cognitive Search: you can supplement with custom analyzers, invoke fuzzy search queries, add filtered search, or experiment with scoring profiles to reshape the search results.

Indexen worden gegenereerd op basis van een index schema waarmee de velden, kenmerken en andere constructies worden gedefinieerd die zijn gekoppeld aan een specifieke index, zoals Score profielen en synoniemen.Indexes are generated from an index schema that defines the fields, attributes, and other constructs attached to a specific index, such as scoring profiles and synonym maps. Zodra een index is gedefinieerd en ingevuld, kunt u incrementeel indexeren om nieuwe en bijgewerkte bron documenten op te halen.Once an index is defined and populated, you can index incrementally to pick up new and updated source documents. Bepaalde wijzigingen moeten volledig opnieuw worden opgebouwd.Certain modifications require a full rebuild. U moet een kleine gegevensset gebruiken totdat het schema ontwerp stabiel is.You should use a small data set until the schema design is stable. Zie How to rebuild an index (Een index herbouwen) voor meer informatie.For more information, see How to rebuild an index.

Controle lijst: een typische werk stroomChecklist: A typical workflow

  1. Deel uw Azure-bron gegevens in een representatieve steek proef.Subset your Azure source data into a representative sample. Het indexeren vergt enige tijd met een kleine, representatieve gegevensset en bouwt deze vervolgens incrementeel op als uw oplossing is gerijpt.Indexing takes time so start with a small, representative data set and then build it up incrementally as your solution matures.

  2. Maak een gegevens bron object in azure Cognitive Search om een Connection String op te geven voor het ophalen van gegevens.Create a data source object in Azure Cognitive Search to provide a connection string for data retrieval.

  3. Maak een vaardig heden met verrijkings stappen.Create a skillset with enrichment steps.

  4. Definieer het index schema.Define the index schema. De verzameling velden bevat velden uit de bron gegevens.The Fields collection includes fields from source data. U moet ook extra velden uitstuben voor het opslaan van gegenereerde waarden voor inhoud die tijdens verrijking is gemaakt.You should also stub out additional fields to hold generated values for content created during enrichment.

  5. Definieer de Indexeer functie die verwijst naar de gegevens bron, de vaardig heden en de index.Define the indexer referencing the data source, skillset, and index.

  6. Voeg in de Indexeer functie outputFieldMappingstoe.Within the indexer, add outputFieldMappings. In deze sectie wordt de uitvoer van de vaardig heden (in stap 3) toegewezen aan de invoer velden in het index schema (in stap 4).This section maps output from the skillset (in step 3) to the inputs fields in the index schema (in step 4).

  7. Maak Create Indexing -aanvraag die u zojuist hebt gemaakt (een post-aanvraag met een indexers definitie in de hoofd tekst van de aanvraag) om de Indexeer functie in azure Cognitive Search te drukken.Send Create Indexer request you just created (a POST request with an indexer definition in the request body) to express the indexer in Azure Cognitive Search. Deze stap bestaat uit het uitvoeren van de Indexeer functie en het aanroepen van de pijp lijn.This step is how you run the indexer, invoking the pipeline.

  8. Voer query's uit om de resultaten te evalueren en de code te wijzigen om vaardig heden, schema of Indexeer configuratie bij te werken.Run queries to evaluate results and modify code to update skillsets, schema, or indexer configuration.

  9. Stel de Indexeer functie opnieuw in voordat u de pijp lijn opnieuw bouwt.Reset the indexer before rebuilding the pipeline.

Volgende stappenNext steps