Einführung in die KI in Azure Cognitive SearchIntroduction to AI in Azure Cognitive Search

Die KI-Anreicherung ist eine Funktion der Azure Cognitive Search-Indizierung zum Extrahieren von Text aus Bildern, Blobs und anderen unstrukturierten Datenquellen, um den Inhalt anzureichern und in einem Index oder Wissensspeicher besser durchsuchbar zu machen.AI enrichment is a capability of Azure Cognitive Search indexing used to extract text from images, blobs, and other unstructured data sources - enriching the content to make it more searchable in an index or knowledge store. Extrahierung und Erweiterung werden über kognitive Fähigkeiten implementiert, die einer Indizierungspipeline angefügt sind.Extraction and enrichment are implemented through cognitive skills attached to an indexing pipeline. In den Dienst integrierte kognitive Qualifikationen werden wie folgt kategorisiert:Cognitive skills built into the service fall into these categories:

  • Zu den Fähigkeiten in Bezug auf die Verarbeitung natürlicher Sprache gehören Entitätserkennung, Spracherkennung, Schlüsselbegriffserkennung, Textbearbeitung und Stimmungserkennung.Natural language processing skills include entity recognition, language detection, key phrase extraction, text manipulation, and sentiment detection. Mithilfe dieser Fähigkeiten kann unstrukturierter Text neue Formen annehmen, die als durchsuchbare und filterbare Felder in einem Index zugeordnet sind.With these skills, unstructured text can assume new forms, mapped as searchable and filterable fields in an index.

  • Die Bildverarbeitungsfähigkeiten umfassen Optical Character Recognition (OCR) und die Identifizierung von visuellen Features, z.B. Gesichtserkennung, Bildinterpretation, Bilderkennung (berühmte Personen und Wahrzeichen) oder Attribute wie Farben oder Bildausrichtung.Image processing skills include Optical Character Recognition (OCR) and identification of visual features, such as facial detection, image interpretation, image recognition (famous people and landmarks) or attributes like colors or image orientation. Sie können Textdarstellungen von Bildinhalt erstellen, indem Sie alle Abfragefunktionen von Azure Cognitive Search verwenden.You can create text-representations of image content, searchable using all the query capabilities of Azure Cognitive Search.

Diagramm der KI-AnreicherungspipelineEnrichment pipeline diagram

Die kognitiven Fähigkeiten in Azure Cognitive Search basieren auf vortrainierten Machine Learning-Modellen in Cognitive Services-APIs: Maschinelles Sehen und Textanalyse.Cognitive skills in Azure Cognitive Search are based on pre-trained machine learning models in Cognitive Services APIs: Computer Vision and Text Analysis.

Die Verarbeitung von natürlicher Sprache und Bildern wird während der Phase der Datenerfassung angewendet, wobei die Ergebnisse zu einem Teil einer Dokumentkomposition in einem durchsuchbaren Index in Azure Cognitive Search werden.Natural language and image processing is applied during the data ingestion phase, with results becoming part of a document's composition in a searchable index in Azure Cognitive Search. Daten stammen aus einem Azure-Dataset und werden dann über eine Indizierungspipeline übertragen, indem jeweils die erforderlichen integrierten Fähigkeiten verwendet werden.Data is sourced as an Azure data set and then pushed through an indexing pipeline using whichever built-in skills you need. Die Architektur ist erweiterbar. Falls die integrierten Fähigkeiten also nicht ausreichen, können Sie benutzerdefinierte Fähigkeiten erstellen und anfügen, um die benutzerdefinierte Verarbeitung zu integrieren.The architecture is extensible so if the built-in skills are not sufficient, you can create and attach custom skills to integrate custom processing. Beispiele hierfür sind ein benutzerdefiniertes Entitätsmodul oder ein benutzerdefinierter Dokumentenklassifizierer, das bzw. der auf eine bestimmte Domäne ausgerichtet ist, z.B. Finanzen, wissenschaftliche Veröffentlichungen oder Medizin.Examples might be a custom entity module or document classifier targeting a specific domain such as finance, scientific publications, or medicine.

Hinweis

Wenn Sie den Umfang erweitern, indem Sie die Verarbeitungsfrequenz erhöhen oder weitere Dokumente oder KI-Algorithmen hinzufügen, müssen Sie eine kostenpflichtige Cognitive Services-Ressource anfügen.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Gebühren fallen beim Aufrufen von APIs in Cognitive Services sowie für die Bildextraktion im Rahmen der Dokumententschlüsselungsphase in Azure Cognitive Search an.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Cognitive Search. Für die Textextraktion aus Dokumenten fallen keine Gebühren an.There are no charges for text extraction from documents.

Die Ausführung integrierter Qualifikationen wird nach dem bestehenden nutzungsbasierten Preis für Cognitive Services berechnet.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. Die Preise für die Bildextraktion sind in der Preisübersicht für Azure Cognitive Search angegeben.Image extraction pricing is described on the Azure Cognitive Search pricing page.

Einsatzgebiete der kognitiven FähigkeitenWhen to use cognitive skills

Integrierte kognitive Qualifikationen können verwendet werden, wenn es sich bei Ihren Rohinhalten um unstrukturierten Text, um Bildinhalte oder um Inhalte handelt, für die Spracherkennung und -übersetzung benötigt werden.You should consider using built-in cognitive skills if your raw content is unstructured text, image content, or content that needs language detection and translation. Die Anwendung von KI in Form der integrierten kognitiven Qualifikationen kann den Nutzen dieser Inhalte in Ihren Such- und Data Science-Apps erhöhen.Applying AI through the built-in cognitive skills can unlock this content, increasing its value and utility in your search and data science apps.

Darüber hinaus können Sie auch eine benutzerdefinierte Qualifikation hinzufügen, wenn Sie über Open-Source-, Drittanbieter- oder Erstanbietercode verfügen, den Sie in die Pipeline integrieren möchten.Additionally, you might consider adding a custom skill if you have open-source, third-party, or first-party code that you'd like to integrate into the pipeline. Zu dieser Kategorie zählen Klassifizierungsmodelle, mit denen wichtige Merkmale verschiedener Dokumenttypen identifiziert werden. Es können aber auch andere Pakete verwendet werden, die den Nutzen Ihrer Inhalte erhöhen.Classification models that identify salient characteristics of various document types fall into this category, but any package that adds value to your content could also be used.

Weitere Informationen zu integrierten QualifikationenMore about built-in skills

Ein Skillset mit vorkonfigurierten Fähigkeiten eignet sich sehr gut für die folgenden Anwendungsszenarien:A skillset that's assembled using built-in skills is well suited for the following application scenarios:

  • Gescannte Dokumente (JPEG), die für die Volltextsuche verfügbar gemacht werden sollen.Scanned documents (JPEG) that you want to make full-text searchable. Sie können eine Fähigkeit zur optischen Zeichenerkennung (Optical Character Recognition, OCR) anfügen, um Text aus JPEG-Dateien zu identifizieren, zu extrahieren und zu erfassen.You can attach an optical character recognition (OCR) skill to identify, extract, and ingest text from JPEG files.

  • PDF-Dateien mit Kombinationen aus Bild und Text.PDFs with combined image and text. Texte in PDF-Dateien können während der Indizierung extrahiert werden, ohne dass die Schritte zur Anreicherung ausgeführt werden. Beim Hinzufügen von Bildverarbeitung und natürlicher Sprachverarbeitung erzielen Sie jedoch häufig ein besseres Ergebnis als bei einer Standardindizierung.Text in PDFs can be extracted during indexing without the use of enrichment steps, but the addition of image and natural language processing can often produce a better outcome than a standard indexing provides.

  • Mehrsprachiger Inhalt, für den Sie die Spracherkennung und möglicherweise die Textübersetzung anwenden möchten.Multi-lingual content against which you want to apply language detection and possibly text translation.

  • Unstrukturierte oder teilweise strukturierte Dokumente mit Inhalten, die eine inhärente Bedeutung oder einen Kontext haben, der im größeren Dokument ausgeblendet ist.Unstructured or semi-structured documents containing content that has inherent meaning or context that is hidden in the larger document.

    Insbesondere Blobs enthalten häufig einen großen Textteil in einem einzelnen „Feld“.Blobs in particular often contain a large body of content that is packed into a singled "field". Durch das Anfügen von Fähigkeiten zur Bildverarbeitung und natürlicher Sprachverarbeitung an einen Indexer können Sie neue Informationen erstellen, die in den Rohdaten noch vorhanden sind, aber sonst nicht als unterschiedliche Felder aufgeführt werden.By attaching image and natural language processing skills to an indexer, you can create new information that is extant in the raw content, but not otherwise surfaced as distinct fields. Einige einsatzbereite, integrierte kognitive Fähigkeiten, die hilfreich sein können: Schlüsselbegriffserkennung, Stimmungsanalyse und Entitätserkennung (Personen, Organisationen und Standorte).Some ready-to-use built-in cognitive skills that can help: key phrase extraction, sentiment analysis, and entity recognition (people, organizations, and locations).

    Darüber hinaus können Sie mit integrierten Fähigkeiten Inhalte durch Textaufteilung, Textzusammenführung und Shape-Vorgänge neu strukturieren.Additionally, built-in skills can also be used restructure content through text split, merge, and shape operations.

Weitere Informationen zu benutzerdefinierten QualifikationenMore about custom skills

Benutzerdefinierte Fähigkeiten können komplexere Szenarien unterstützen, z. B. das Erkennen von Formularen oder die benutzerdefinierte Entitätserkennung mithilfe eines Modells, das Sie bereitstellen und in der benutzerdefinierten Skills-Webschnittstelle umschließen.Custom skills can support more complex scenarios, such as recognizing forms, or custom entity detection using a model that you provide and wrap in the custom skill web interface. Beispiele für benutzerdefinierte Fähigkeiten sind die Formularerkennung, die Integration der Bing-Entitätssuche-API und die Erkennung von benutzerdefinierten Entitäten.Several examples of custom skills include Forms Recognizer, integration of the Bing Entity Search API, and custom entity recognition.

Komponenten einer AnreicherungspipelineComponents of an enrichment pipeline

Eine Anreicherungspipeline basiert auf Indexern, die Datenquellen durchforsten und End-to-End-Indexverarbeitung bieten.An enrichment pipeline is based on indexers that crawl data sources and provide end-to-end index processing. Die Fähigkeitengruppen werden jetzt an Indexer angefügt. Dabei werden Dokumente gemäß der von Ihnen definierten Fähigkeiten abgefangen und angereichert.Skills are now attached to indexers, intercepting and enriching documents according to the skillset you define. Nach der Indizierung können Sie über Suchanforderungen über sämtliche von Azure Cognitive Search unterstützte Abfragetypen auf Inhalte zugreifen.Once indexed, you can access content via search requests through all query types supported by Azure Cognitive Search. Wenn Sie mit Indexern noch nicht vertraut sind, werden Ihnen in diesem Abschnitt die erforderlichen Schritte erläutert.If you are new to indexers, this section walks you through the steps.

Schritt 1: Phase der Entschlüsselung von Verbindung und DokumentStep 1: Connection and document cracking phase

Am Anfang der Pipeline befindet sich unstrukturierter Text oder Nicht-Text-Inhalt (z.B. Bilder und gescannte Dokumente als JPEG-Dateien).At the start of the pipeline, you have unstructured text or non-text content (such as image and scanned document JPEG files). Die Daten müssen in einem Azure-Datenspeicherdienst enthalten sein, auf den ein Indexer Zugriff hat.Data must exist in an Azure data storage service that can be accessed by an indexer. Indexer können Quelldokumente entschlüsseln, um Text aus Quelldaten zu extrahieren.Indexers can "crack" source documents to extract text from source data.

Phase der DokumententschlüsselungDocument cracking phase

Zu den unterstützten Quellen zählen Azure Blob Storage, Azure Table Storage, Azure SQL-Datenbank und Azure Cosmos DB.Supported sources include Azure blob storage, Azure table storage, Azure SQL Database, and Azure Cosmos DB. Textbasierte Inhalte können aus den folgenden Dateitypen extrahiert werden: PDF-, Word-, PowerPoint- und CSV-Dateien.Text-based content can be extracted from the following file types: PDFs, Word, PowerPoint, CSV files. Eine vollständige Liste finden Sie unter Unterstützte Formate.For the full list, see Supported formats.

Schritt 2: Phase der kognitiven Fähigkeiten und AnreicherungStep 2: Cognitive skills and enrichment phase

Die Anreicherung erfolgt durch kognitive Fähigkeiten, die atomische Vorgänge durchführen.Enrichment is through cognitive skills performing atomic operations. Sobald Sie über Textinhalte aus einer PDF-Datei verfügen, können Sie beispielsweise die Entitätserkennung, die Sprachenerkennung oder die Schlüsselbegriffserkennung anwenden, um neue Felder in Ihrem Index zu erstellen, die nativ in der Quelle nicht verfügbar sind.For example, once you have text content from a PDF, you can apply entity recognition language detection, or key phrase extraction to produce new fields in your index that are not available natively in the source. Die Auflistung der in Ihrer Pipeline verwendeten Fähigkeiten wird als Fähigkeitengruppe bezeichnet.Altogether, the collection of skills used in your pipeline is called a skillset.

Phase der AnreicherungEnrichment phase

Ein Skillset basiert auf integrierten kognitiven Fähigkeiten oder benutzerdefinierten Fähigkeiten, die von Ihnen bereitgestellt und mit dem Skillset verbunden werden.A skillset is based on built-in cognitive skills or custom skills you provide and connect to the skillset. Eine Fähigkeitengruppe kann minimal oder höchst komplex sein. Sie bestimmt nicht nur den Verarbeitungstyp, sondern auch die Reihenfolge der Vorgänge.A skillset can be minimal or highly complex, and determines not only the type of processing, but also the order of operations. Eine Fähigkeitengruppe bietet zusammen mit den als Bestandteil eines Indexers definierten Feldzuordnungen eine umfassende Beschreibung der Anreicherungspipeline.A skillset plus the field mappings defined as part of an indexer fully specifies the enrichment pipeline. Weitere Informationen zum Zusammensetzen all dieser Teile finden Sie unter Definieren einer Fähigkeitengruppe.For more information about pulling all of these pieces together, see Define a skillset.

Die Pipeline generiert intern eine Sammlung angereicherter Dokumente.Internally, the pipeline generates a collection of enriched documents. Sie können entscheiden, welche Teile der angereicherten Dokumente indizierbaren Feldern in Ihrem Suchindex zugeordnet werden sollen.You can decide which parts of the enriched documents should be mapped to indexable fields in your search index. Wenn Sie beispielsweise die Fähigkeiten der Schlüsselbegriffserkennung und der Entitätserkennung angewendet haben, werden diese neuen Felder Bestandteil des angereicherten Dokuments und können Feldern in Ihrem Index zugeordnet werden.For example, if you applied the key phrases extraction and the entity recognition skills, then those new fields would become part of the enriched document, and they can be mapped to fields on your index. Weitere Informationen zu Eingabe-/Ausgabeformationen finden Sie unter Anmerkungen.See Annotations to learn more about input/output formations.

Hinzufügen eines knowledgeStore-Elements zum Speichern von AnreicherungenAdd a knowledgeStore element to save enrichments

Die REST-API-Version 2019-05-06-Preview des Search-Diensts erweitert Qualifikationsgruppen um eine knowledgeStore-Definition, die eine Azure Storage-Verbindung und Projektionen bereitstellt, die beschreiben, wie die Anreicherungen gespeichert werden.Search REST api-version=2019-05-06-Preview extends skillsets with a knowledgeStore definition that provides an Azure storage connection and projections that describe how the enrichments are stored.

Das Hinzufügen eines Wissensspeichers zu einer Qualifikationsgruppe bietet Ihnen die Möglichkeit, eine Darstellung Ihrer Anreicherungen für andere Szenarien als die Volltextsuche zu projizieren.Adding a knowledge store to a skillset gives you the ability to project a representation of your enrichments for scenarios other than full text search. Weitere Informationen finden Sie unter Wissensspeicher (Vorschau).For more information, see Knowledge store (preview).

Schritt 3: Suchindex und abfragebasierter ZugriffStep 3: Search index and query-based access

Nach Abschluss der Verarbeitung verfügen Sie über einen Suchindex mit angereicherten Dokumenten, die mit Azure Cognitive Search im Volltext durchsucht werden können.When processing is finished, you have a search index consisting of enriched documents, fully text-searchable in Azure Cognitive Search. Entwickler und Benutzer greifen über das Abfragen des Indexes auf den von der Pipeline generierten angereicherten Inhalt zu.Querying the index is how developers and users access the enriched content generated by the pipeline.

Index mit SuchsymbolIndex with search icon

Der Index ist vergleichbar mit beliebigen anderen Indizes, die für Azure Cognitive Search erstellt werden können: Sie können ihn durch benutzerdefinierte Analysen ergänzen, Fuzzysuchabfragen aufrufen, gefilterte Suchvorgänge hinzufügen oder zur Umgestaltung der Suchergebnisse mit Bewertungsprofilen experimentieren.The index is like any other you might create for Azure Cognitive Search: you can supplement with custom analyzers, invoke fuzzy search queries, add filtered search, or experiment with scoring profiles to reshape the search results.

Indizes werden über ein Indexschema generiert, das die Felder, Attribute und weitere Konstrukte definiert, die an einen bestimmten Index angefügt wurden, wie z.B. Bewertungsprofile und Synonymzuordnungen.Indexes are generated from an index schema that defines the fields, attributes, and other constructs attached to a specific index, such as scoring profiles and synonym maps. Nachdem ein Index definiert und aufgefüllt wurde, können Sie die Indizierung inkrementell durchführen, um neue und aktualisierte Quelldokumente zu übernehmen.Once an index is defined and populated, you can index incrementally to pick up new and updated source documents. Für bestimmte Änderungen ist eine vollständige Neuerstellung erforderlich.Certain modifications require a full rebuild. Sie sollten ein kleines Dataset verwenden, bis der Schemaentwurf stabil ist.You should use a small data set until the schema design is stable. Weitere Informationen finden Sie unter Neuerstellen eines Indexes.For more information, see How to rebuild an index.

Wichtige Features und KonzepteKey features and concepts

KonzeptConcept BESCHREIBUNGDescription LinksLinks
FähigkeitengruppeSkillset Eine benannte allgemeine Ressource mit einer Sammlung von Fähigkeiten.A top-level named resource containing a collection of skills. Eine Fähigkeitengruppe in der Anreicherungspipeline.A skillset is the enrichment pipeline. Sie wird während der Indizierung durch einen Indexer aufgerufen.It is invoked during indexing by an indexer. Siehe Definieren eines SkillsetsSee Define a skillset
Kognitive FähigkeitCognitive skill Eine atomische Transformation in einer Anreicherungspipeline.An atomic transformation in an enrichment pipeline. Häufig handelt es sich dabei um eine Komponente, die sich mit der Extrahierung oder der Erschließung einer Struktur befasst und folglich Ihr Verständnis der Eingabedaten ergänzt.Often, it is a component that extracts or infers structure, and therefore augments your understanding of the input data. Die Ausgabe ist fast immer textbasiert. Bei der Verarbeitung wird auf die Verarbeitung natürlicher Sprache oder die Bildbearbeitung zurückgegriffen, bei der Text aus Bildeingaben extrahiert oder generiert wird.Almost always, the output is text-based and the processing is natural language processing or image processing that extracts or generates text from image inputs. Die Ausgabe aus einer Fähigkeit kann einem Feld in einem Index zugeordnet werden oder als Eingabe für eine Downstream-Anreicherung verwendet werden.Output from a skill can be mapped to a field in an index, or used as an input for a downstream enrichment. Eine Fähigkeit ist entweder vordefiniert und wird von Microsoft bereitgestellt, oder sie ist benutzerdefiniert und wird von Ihnen erstellt und bereitgestellt.A skill is either predefined and provided by Microsoft, or custom: created and deployed by you. Integrierte kognitive QualifikationenBuilt-in cognitive skills
Extrahieren von DatenData extraction Deckt ein breites Verarbeitungsspektrum ab. In Bezug auf die KI-Anreicherung wird die Fähigkeit zur Erkennung von Entitäten jedoch zumeist zum Extrahieren von Daten (einer Entität) aus einer Quelle verwendet, die diese Informationen nicht nativ bereitstellt.Covers a broad range of processing, but pertaining to AI enrichment, the entity recognition skill is most typically used to extract data (an entity) from a source that doesn't provide that information natively. Siehe Die kognitive Qualifikation „Entitätserkennung“ und Kognitive Qualifikation „Dokumentextrahierung“See Entity Recognition Skill and Document Extraction Skill (preview)
BildverarbeitungImage processing Erschließt sich Text aus einem Bild, z.B. die Fähigkeit der Erkennung eines Wahrzeichens oder des Extrahierens von Text aus einem Bild.Infers text from an image, such as the ability to recognize a landmark, or extracts text from an image. Typische Beispiele dafür sind OCR für das Löschen von Zeichen aus einer Datei mit einem gescannten Dokument (JPEG) oder das Erkennen eines Straßennamens auf einem Foto mit einem Straßenschild.Common examples include OCR for lifting characters from a scanned document (JPEG) file, or recognizing a street name in a photograph containing a street sign. Siehe Fähigkeit: Bildanalyse oder Fähigkeit: OCRSee Image Analysis Skill or OCR Skill
Verarbeitung natürlicher SpracheNatural language processing Textverarbeitung für Einblicke und Informationen zu Texteingaben.Text processing for insights and information about text inputs. Sprachenerkennung, Standpunktanalyse und Schlüsselbegriffserkennung sind Fähigkeiten, die in den Bereich der Verarbeitung natürlicher Sprache fallen.Language detection, sentiment analysis, and key phrase extraction are skills that fall under natural language processing. Siehe Qualifikation „Schlüsselbegriffserkennung“, Qualifikation „Sprachenerkennung“, Qualifikation „Textübersetzung“ der kognitiven Suche, Qualifikation „Standpunktanalyse“See Key Phrase Extraction Skill, Language Detection Skill, Text Translation Skill (preview), Sentiment Analysis Skill
DokumententschlüsselungDocument cracking Der Prozess des Extrahierens oder Erstellens von Textinhalt aus Nicht-Text-Quellen während der Indizierung.The process of extracting or creating text content from non-text sources during indexing. OCR (Optical Character Recognition) ist ein Beispiel hierfür. In der Regel bezieht sich dies jedoch auf die Kernfunktionalität des Indexers, da dieser Inhalte aus Anwendungsdateien extrahiert.Optical character recognition (OCR) is an example, but generally it refers to core indexer functionality as the indexer extracts content from application files. Sowohl die Datenquelle, die den Speicherort der Quelldatei bereitstellt, als auch die Indexerdefinition, die Feldzuordnungen zur Verfügung stellt, stellen Schlüsselfaktoren bei der Dokumententschlüsselung dar.The data source providing source file location, and the indexer definition providing field mappings, are both key factors in document cracking. Siehe Indexer in Azure SearchSee Indexers overview
StrukturierungShaping Textfragmente werden zu einer größeren Struktur konsolidiert, oder größere Textblöcke werden zur weiteren Downstream-Verarbeitung in eine überschaubare Größe aufgeteilt.Consolidate text fragments into a larger structure, or conversely break down larger text chunks into a manageable size for further downstream processing. Siehe Fähigkeit: Strukturierung, Fähigkeit: Textzusammenführung, Fähigkeit: TextunterteilungSee Shaper Skill, Text Merger Skill, Text Split Skill
Angereicherte DokumenteEnriched documents Eine vorübergehende interne Struktur, die bei der Verarbeitung generiert wird. Die endgültige Ausgabe spiegelt sich in einem Suchindex wider.A transitory internal structure, generated during processing, with final output reflected in a search index. Eine Skillset bestimmt, welche Anreicherungen vorgenommen werden.A skillset determines which enrichments are performed. Feldzuordnungen bestimmen, welche Datenelemente zum Index hinzugefügt werden.Field mappings determine which data elements are added to the index. Optional können Sie einen Wissensspeicher erstellen, um angereicherte Dokumente mit Tools wie dem Storage-Explorer, Power BI oder einem anderen Tool, das mit Azure Blob Storage verbunden ist, zu speichern und zu untersuchen.Optionally, you can create a knowledge store to persist and explore enriched documents using tools like Storage Explorer, Power BI, or any other tool that connects to Azure Blob storage. Siehe Wissensspeicher (Vorschau)See Knowledge store (preview)
IndexerIndexer Ein Crawler, mit dem durchsuchbare Daten und Metadaten aus einer externen Datenquelle extrahiert werden und mit dem ein Index basierend auf Feld-zu-Feld-Zuordnungen zwischen dem Index und Ihrer Datenquelle zur Dokumententschlüsselung aufgefüllt wird.A crawler that extracts searchable data and metadata from an external data source and populates an index based on field-to-field mappings between the index and your data source for document cracking. Bei der KI-Anreicherung ruft der Indexer ein Skillset auf und enthält die Feldzuordnungen, durch welche die Ausgabe der Anreicherung Zielfeldern im Index zugeordnet wird.For AI enrichments, the indexer invokes a skillset, and contains the field mappings associating enrichment output to target fields in the index. Die Indexerdefinition enthält sämtliche Anweisungen und Verweise für Pipelinevorgänge. Die Pipeline wird bei Ausführung des Indexers aufgerufen.The indexer definition contains all of the instructions and references for pipeline operations, and the pipeline is invoked when you run the indexer. Darüber hinaus können Sie bereits vorhandene Verarbeitungsschritte wiederverwenden und nur die geänderten Schritte und Qualifikationen ausführen. Hierzu sind allerdings weitere Konfigurationsschritte erforderlich.With additional configuration, you can re-use existing processing and execute only those steps and skills that are changed. Siehe Indexer in Azure Search und Was ist die inkrementelle Indizierung in Azure Cognitive Search?See Indexers and Incremental indexing (preview).
Data sourceData Source Ein von einem Indexer verwendetes Objekt zum Verbinden mit einer externen Datenquelle von unterstützten Typen in Azure.An object used by an indexer to connect to an external data source of supported types on Azure. Siehe Indexer in Azure SearchSee Indexers overview
IndexIndex Ein persistenter Suchindex in Azure Cognitive Search, der aus einem Indexschema erstellt wurde, das die Feldstruktur und -verwendung definiert.A persisted search index in Azure Cognitive Search, built from an index schema that defines field structure and usage. Siehe Erstellen eines grundlegenden IndexSee Create a basic index

Wo beginne ich?Where do I start?

Schritt 1: Erstellen einer Ressource für Azure Cognitive SearchStep 1: Create an Azure Cognitive Search resource

Schritt 2: Ausprobieren einiger Schnellstarts und Beispiele, um praktische Erfahrungen zu sammelnStep 2: Try some quickstarts and examples for hands-on experience

Wir empfehlen, den kostenlosen Dienst zu Lernzwecken zu verwenden. Jedoch ist die Anzahl kostenloser Transaktionen auf 20 Dokumente pro Tag beschränkt.We recommend the Free service for learning purposes, however the number of free transactions is limited to 20 documents per day. Wenn Sie sowohl die Schnellstartanleitung als auch das Tutorial am gleichen Tag ausführen möchten, verwenden Sie einen kleineren Dateisatz (zehn Dokumente), damit Sie beide Übungen ausführen können, oder löschen Sie den im Schnellstart oder Tutorial verwendeten Indexer, um den Zähler auf Null zu setzen.To run both the quickstart and tutorial in one day, use a smaller file set (10 documents) so that you can fit in both exercises, or delete the indexer you used in the quickstart or tutorial to rest the counter to zero.

Schritt 3: Überprüfen der APIStep 3: Review the API

Sie können in REST api-version=2019-05-06 in Anforderungen oder dem .NET SDK verwenden.You can use REST api-version=2019-05-06 on requests or the .NET SDK. Wenn Sie den Wissensspeicher ausprobieren, verwenden Sie stattdessen die Vorschau-REST-API (api-version=2019-05-06-Preview).If you are exploring knowledge store, use the preview REST API instead (api-version=2019-05-06-Preview).

Bei diesem Schritt werden die REST-APIs zum Erstellen einer Lösung für die KI-Anreicherung verwendet.This step uses the REST APIs to build an AI enrichment solution. Es werden nur zwei APIs für die KI-Anreicherung hinzugefügt oder erweitert.Only two APIs are added or extended for AI enrichment. Andere APIs haben die gleiche Syntax wie die allgemein verfügbaren Versionen.Other APIs have the same syntax as the generally available versions.

REST-APIREST API BESCHREIBUNGDescription
Erstellen der DatenquelleCreate Data Source Eine Ressource, die eine externe Datenquelle identifiziert, welche Quelldaten zum Erstellen angereicherter Dokumente bereitstellt.A resource identifying an external data source providing source data used to create enriched documents.
Erstellen einer Qualifikationsgruppe (API-Version 2019-05-06)Create Skillset (api-version=2019-05-06) Diese API ist spezifisch für die KI-Anreicherung.This API is specific to AI enrichment. Es handelt sich hierbei um eine Ressource, die die Verwendung von integrierten Qualifikationen und benutzerdefinierten kognitiven Qualifikationen in einer Anreicherungspipeline während der Indizierung koordiniert.It is a resource coordinating the use of built-in skills and custom cognitive skills used in an enrichment pipeline during indexing.
Index erstellenCreate Index Ein Schema zur Beschreibung eines Azure Cognitive Search-Index.A schema expressing an Azure Cognitive Search index. Felder im Index werden Feldern in den Quelldaten zugeordnet oder Feldern, die während der Anreicherungsphase erstellt wurden (z.B. ein von der Entitätserkennung erstelltes Feld für Organisationsnamen).Fields in the index map to fields in source data or to fields manufactured during the enrichment phase (for example, a field for organization names created by entity recognition).
Erstellen eines Indexers (API-Version 2019-05-06)Create Indexer (api-version=2019-05-06) Eine Ressource, die während der Indizierung verwendete Komponenten definiert: Dazu zählen eine Datenquelle, eine Fähigkeitengruppe, Feldzuordnungen der Quelle, intermediäre Datenstrukturen für den Zielindex und der Index selbst.A resource defining components used during indexing: including a data source, a skillset, field associations from source and intermediary data structures to target index, and the index itself. Die Ausführung des Indexers ist Auslöser für die Datenerfassung und -anreicherung.Running the indexer is the trigger for data ingestion and enrichment. Die Ausgabe ist ein Suchindex basierend auf dem Indexschema, der mit Quelldaten aufgefüllt wird, die durch Qualifikationsgruppen angereichert werden.The output is a search index based on the index schema, populated with source data, enriched through skillsets. Diese vorhandene API wird in kognitiven Suchszenarien mit Einbindung einer Skillset-Eigenschaft erweitert.This existing API is extended for cognitive search scenarios with the inclusion of a skillset property.

Checkliste: Typischer WorkflowChecklist: A typical workflow

  1. Fügen Sie Teilmengen Ihrer Azure-Quelldaten in eine repräsentative Stichprobe ein.Subset your Azure source data into a representative sample. Die Indizierung braucht Zeit. Daher sollten Sie mit einem kleinen, repräsentativen Dataset beginnen, das Sie anschließend schrittweise aufbauen, während sich Ihre Lösung entwickelt.Indexing takes time so start with a small, representative data set and then build it up incrementally as your solution matures.

  2. Erstellen Sie ein Datenquellenobjekt in Azure Cognitive Search, um eine Verbindungszeichenfolge für den Datenabruf bereitzustellen.Create a data source object in Azure Cognitive Search to provide a connection string for data retrieval.

  3. Erstellen Sie mithilfe von Anreicherungsschritten Fähigkeitengruppen.Create a skillset with enrichment steps.

  4. Definieren Sie das Indexschema.Define the index schema. Die Fields-Auflistung enthält Felder aus Quelldaten.The Fields collection includes fields from source data. Sie sollten zudem zusätzliche Felder durch Stubs ersetzen, um generierte Werte für Inhalte zu speichern, die während der Anreicherung erstellt werden.You should also stub out additional fields to hold generated values for content created during enrichment.

  5. Definieren Sie den Indexer, der auf die Datenquelle, die Fähigkeitengruppen und den Index verweist.Define the indexer referencing the data source, skillset, and index.

  6. Fügen Sie outputFieldMappings innerhalb des Indexers hinzu.Within the indexer, add outputFieldMappings. In diesem Abschnitt wird die Ausgabe aus der Fähigkeitengruppe (in Schritt 3) den Eingabefeldern im Indexschema (in Schritt 4) zugeordnet.This section maps output from the skillset (in step 3) to the inputs fields in the index schema (in step 4).

  7. Senden Sie die gerade erstellte Anforderung Indexer erstellen (eine POST-Anforderung mit einer Indexerdefinition im Anforderungstext), um den Indexer in Azure Cognitive Search darzustellen.Send Create Indexer request you just created (a POST request with an indexer definition in the request body) to express the indexer in Azure Cognitive Search. Dieser Schritt befasst sich mit der Ausführung des Indexers durch Aufrufen der Pipeline.This step is how you run the indexer, invoking the pipeline.

  8. Führen Sie zum Auswerten von Ergebnissen und zum Ändern von Code Abfragen aus, um Fähigkeitengruppen, Schemas oder die Indexerkonfiguration zu aktualisieren.Run queries to evaluate results and modify code to update skillsets, schema, or indexer configuration.

  9. Setzen Sie den Indexer zurück, bevor Sie die Pipeline neu erstellen.Reset the indexer before rebuilding the pipeline.

Weitere Informationen zu bestimmten Fragen oder Problemen finden Sie unter Problembehandlungstipps.For more information about specific questions or problems, see Troubleshooting tips.

Nächste SchritteNext steps