AI-gazdagítás az Azure Cognitive SearchAI enrichment in Azure Cognitive Search

Az AI-bővítés az Indexelő bővítménye, amely a képekből, blobokból és egyéb strukturálatlan adatforrásokból való szöveg kinyerésére használható.AI enrichment is an extension of indexers that can be used to extract text from images, blobs, and other unstructured data sources. A bővítés és a kivonás a tartalmat az indexelő kimeneti objektumaiban, egy keresési indexben vagy egy Tudásbázisbankereshetővé teheti.Enrichment and extraction make your content more searchable in indexer output objects, either a search index or a knowledge store.

A kinyerés és a dúsítás az indexelő által vezérelt folyamathoz csatolt kognitív képességek használatával valósítható meg.Extraction and enrichment are implemented using cognitive skills attached to the indexer-driven pipeline. A Microsoft beépített képességeit használhatja, vagy külső feldolgozást ágyazhat be egy Ön által létrehozott Egyéni képességbe .You can use built-in skills from Microsoft or embed external processing into a custom skill that you create. Egyéni képesség lehet például egy egyedi entitás modul vagy dokumentum-osztályozó, amely egy adott tartományhoz, például pénzügyi, tudományos kiadványokhoz vagy gyógyszerhez céloz.Examples of a custom skill might be a custom entity module or document classifier targeting a specific domain such as finance, scientific publications, or medicine.

A beépített készségek a következő kategóriákba sorolhatók:Built-in skills fall into these categories:

Dúsítási folyamat diagramjaEnrichment pipeline diagram

Az Azure Cognitive Search beépített képességei a Cognitive Services API-k: Computer Vision és text Analyticselőre betanított gépi tanulási modelljein alapulnak.Built-in skills in Azure Cognitive Search are based on pre-trained machine learning models in Cognitive Services APIs: Computer Vision and Text Analytics. Ha az erőforrásokat a tartalom feldolgozása során szeretné használni, csatolhatja Cognitive Services erőforrást.You can attach a Cognitive Services resource if you want to leverage these resources during content processing.

A természetes nyelv és a képfeldolgozás az adatfeldolgozási fázisban történik, és az eredmények egy dokumentum összeállításának részévé válnak az Azure Cognitive Search kereshető indexében.Natural language and image processing is applied during the data ingestion phase, with results becoming part of a document's composition in a searchable index in Azure Cognitive Search. Az adatforrások Azure-adatkészletként vannak kialakítva, majd egy indexelési folyamaton keresztül leküldve, amely a szükséges beépített képességekkel rendelkezik.Data is sourced as an Azure data set and then pushed through an indexing pipeline using whichever built-in skills you need.

Mikor kell használni a mesterséges intelligenciátWhen to use AI enrichment

Érdemes megfontolni a beépített kognitív ismeretek használatát, ha a nyers tartalma strukturálatlan szöveg, képtartalom vagy olyan tartalom, amely nyelvi észlelést és fordítást igényel.You should consider using built-in cognitive skills if your raw content is unstructured text, image content, or content that needs language detection and translation. Ha a mesterséges intelligenciát a beépített kognitív ismeretek használatával szeretné feloldani, a keresési és adatelemzési alkalmazásaiban megnövelheti a tartalmat, és növelheti annak értékét és hasznosságát.Applying AI through the built-in cognitive skills can unlock this content, increasing its value and utility in your search and data science apps.

Emellett érdemes lehet egyéni képességet is felvennie, ha olyan nyílt forráskódú, harmadik féltől származó vagy első féltől származó kóddal rendelkezik, amelyet be szeretne építeni a folyamatba.Additionally, you might consider adding a custom skill if you have open-source, third-party, or first-party code that you'd like to integrate into the pipeline. A különböző dokumentumtípusok legjellemzőbb jellemzőit azonosító besorolási modellek ebbe a kategóriába tartoznak, de a tartalomhoz hozzáadott bármely csomag használható.Classification models that identify salient characteristics of various document types fall into this category, but any package that adds value to your content could be used.

További információ a beépített képességekrőlMore about built-in skills

A beépített képességekkel összeállított készségkészlet jól illeszkedik a következő alkalmazási forgatókönyvekhez:A skillset that's assembled using built-in skills is well suited for the following application scenarios:

  • A teljes szöveges keresést végezni kívánó beolvasott dokumentumok (JPEG).Scanned documents (JPEG) that you want to make full-text searchable. A JPEG-fájlok szövegének azonosításához, kinyeréséhez és betöltéséhez egy optikai karakterfelismerési (OCR) képességet is csatolhat.You can attach an optical character recognition (OCR) skill to identify, extract, and ingest text from JPEG files.

  • Kombinált képpel és szöveggel rendelkező PDF-fájlok.PDFs with combined image and text. A PDF-fájlokban lévő szöveg kinyerhető az indexelés során a dúsítási lépések használata nélkül, de a képek és a természetes nyelvi feldolgozás hozzáadása gyakran jobb eredményt eredményezhet, mint a szabványos indexelés.Text in PDFs can be extracted during indexing without the use of enrichment steps, but the addition of image and natural language processing can often produce a better outcome than a standard indexing provides.

  • Többnyelvű tartalom, amelyre alkalmazni kívánja a nyelvi észlelést és a szöveges fordítást.Multi-lingual content against which you want to apply language detection and possibly text translation.

  • Strukturálatlan vagy részben strukturált dokumentumok, amelyek olyan tartalmat tartalmaznak, amely a nagyobb dokumentumban rejtett jelentéssel vagy kontextussal rendelkezik.Unstructured or semi-structured documents containing content that has inherent meaning or context that is hidden in the larger document.

    A Blobok gyakran tartalmaznak egy nagy méretű tartalmat, amely egyetlen "mezőre" van csomagolva.Blobs in particular often contain a large body of content that is packed into a single "field". Ha rendszerképeket és természetes nyelvi feldolgozási képességeket csatol egy indexelő alkalmazáshoz, létrehozhat olyan új adatokat, amelyek a nyers tartalomban is fennmaradnak, de másképp nem különálló mezőkként.By attaching image and natural language processing skills to an indexer, you can create new information that is extant in the raw content, but not otherwise surfaced as distinct fields. Néhány használatra kész, beépített kognitív képesség, amely segítséget nyújt a kulcsfontosságú kifejezés kinyeréséhez, a hangulat elemzéséhez és az entitások felismeréséhez (személyek, szervezetek és helyszínek).Some ready-to-use built-in cognitive skills that can help: key phrase extraction, sentiment analysis, and entity recognition (people, organizations, and locations).

    Emellett a beépített készségek is használhatók a tartalom átstrukturálása a szöveg felosztása, egyesítése és alakja műveletekkel.Additionally, built-in skills can also be used restructure content through text split, merge, and shape operations.

További információ az egyéni képességekrőlMore about custom skills

Az egyéni képességek olyan összetettebb forgatókönyveket is támogatnak, mint például az űrlapok felismerése vagy az egyéni entitások észlelése az Ön által megadott és az Egyéni szakértelem webes felületénbeburkolt modell használatával.Custom skills can support more complex scenarios, such as recognizing forms, or custom entity detection using a model that you provide and wrap in the custom skill web interface. Az egyéni képességek számos példája például az űrlap-felismerő, a Bing Entity Search APIintegrációja és az egyéni entitások felismerése.Several examples of custom skills include Forms Recognizer, integration of the Bing Entity Search API, and custom entity recognition.

A dúsítási folyamat lépései Steps in an enrichment pipeline

A dúsítási folyamat indexekenalapul.An enrichment pipeline is based on indexers. Az indexelő az index és az adatforrások között a dokumentum repedése között mező – mező típusú leképezések alapján tölti fel az indexet.Indexers populate an index based on field-to-field mappings between the index and your data source for document cracking. A most már indexelt anyagokhoz csatolt ismeretek, az Ön által megadott készségkészlet (ok) szerint a dokumentumok elfogása és gazdagítása.Skills, now attached to indexers, intercept and enrich documents according to the skillset(s) you define. Az indexelés után az Azure Cognitive Search által támogatott összes lekérdezési típusonkeresztül érheti el a tartalmat.Once indexed, you can access content via search requests through all query types supported by Azure Cognitive Search. Ha még nem ismeri az indexeket, ez a szakasz végigvezeti a lépéseken.If you are new to indexers, this section walks you through the steps.

1. lépés: a kapcsolatok és a dokumentumok repedésének fázisaStep 1: Connection and document cracking phase

A folyamat elején strukturálatlan szöveggel vagy nem szöveges tartalommal (például képekkel, beolvasott dokumentumokkal vagy JPEG-fájlokkal) rendelkezik.At the start of the pipeline, you have unstructured text or non-text content (such as images, scanned documents, or JPEG files). Az adattáraknak olyan Azure-beli adattárolási szolgáltatásban kell lenniük, amely egy indexelő segítségével érhető el.Data must exist in an Azure data storage service that can be accessed by an indexer. Az indexelő "kiváló" forrás dokumentumokat gyűjthetnek a forrásadatokből származó szöveg kinyeréséhez.Indexers can "crack" source documents to extract text from source data. A dokumentum repedése az indexelés során a nem szöveges forrásokból származó szöveges tartalom kinyerésének vagy létrehozásának folyamata.Document cracking is the process of extracting or creating text content from non-text sources during indexing.

A dokumentum repedésének fázisaDocument cracking phase

A támogatott források közé tartozik az Azure Blob Storage, az Azure Table Storage, a Azure SQL Database és az Azure Cosmos DB.Supported sources include Azure blob storage, Azure table storage, Azure SQL Database, and Azure Cosmos DB. A szöveges tartalmat a következő fájltípusokból lehet kinyerni: PDF-fájlok, Word-, PowerPoint-és CSV-fájlok.Text-based content can be extracted from the following file types: PDFs, Word, PowerPoint, CSV files. A teljes listát lásd: támogatott formátumok.For the full list, see Supported formats. Az indexelés időt vesz igénybe, hogy egy kisebb, reprezentatív adatkészletet hozzon létre, majd fokozatosan felépítse a megoldás idejére.Indexing takes time so start with a small, representative data set and then build it up incrementally as your solution matures.

2. lépés: a kognitív képességek és a gazdagodás fázisaStep 2: Cognitive skills and enrichment phase

A gazdagodás az atomi műveleteket végző kognitív képességekkel történik.Enrichment is performed with cognitive skills performing atomic operations. Ha például megrepedt egy PDF-fájlt, alkalmazhatja az entitások felismerését, a nyelvfelismerés vagy a kulcsfontosságú kifejezés kinyerését, hogy az indexben olyan új mezőket hozzon létre, amelyek nem érhetők el natív módon a forrásban.For example, once you have cracked a PDF, you can apply entity recognition, language detection, or key phrase extraction to produce new fields in your index that are not available natively in the source. A folyamat során használt szaktudás gyűjteményét teljes egészében készségkészletnevezzük.Altogether, the collection of skills used in your pipeline is called a skillset.

Dúsítási fázisEnrichment phase

A készségkészlet a beépített kognitív képességek vagy az Ön által biztosított egyéni képességek , valamint a készségkészlet való kapcsolódás alapján történik.A skillset is based on built-in cognitive skills or custom skills you provide and connect to the skillset. A készségkészlet minimális vagy nagyon összetett lehet, és nem csak a feldolgozás típusát, hanem a műveletek sorrendjét is meghatározhatja.A skillset can be minimal or highly complex, and determines not only the type of processing, but also the order of operations. A készségkészlet és az indexelő részeként definiált mező-hozzárendelések teljes mértékben a dúsítási folyamatot határozzák meg.A skillset plus the field mappings defined as part of an indexer fully specifies the enrichment pipeline. További információ ezekről a darabokról: Készségkészlet definiálása.For more information about pulling all of these pieces together, see Define a skillset.

Belsőleg a folyamat gazdagított dokumentumok gyűjteményét hozza létre.Internally, the pipeline generates a collection of enriched documents. Eldöntheti, hogy a bővített dokumentumok mely részeit kell leképezni a keresési index indexelhető mezőihez.You can decide which parts of the enriched documents should be mapped to indexable fields in your search index. Ha például alkalmazta a kinyerési kifejezést és az entitás-felismerési képességeket, az új mezők a dúsított dokumentum részévé válnak, és az index mezőire képezhetők le.For example, if you applied the key phrase extraction and the entity recognition skills, those new fields would become part of the enriched document, and can be mapped to fields on your index. A bemeneti/kimeneti formációkkal kapcsolatos további tudnivalókért tekintse meg a megjegyzéseket .See Annotations to learn more about input/output formations.

KnowledgeStore elem hozzáadása a dúsítások mentéséhezAdd a knowledgeStore element to save enrichments

Keresési REST API-Version = 2020-06-30 a szakértelmével kiterjesztése olyan knowledgeStore definícióval, amely egy Azure Storage-kapcsolattal és-kivetítésekkel rendelkezik, amelyek leírják a dúsítások tárolási módját.Search REST api-version=2020-06-30 extends skillsets with a knowledgeStore definition that provides an Azure storage connection and projections that describe how the enrichments are stored. Ez az indexen kívül történik.This is in addition to your index. A standard AI-folyamatokban a dúsított dokumentumok átmenetiek, csak indexelés során használhatók, majd elvetették őket.In a standard AI pipeline, enriched documents are transitory, used only during indexing and then discarded. A Knowledge Store-ban a dúsított dokumentumok megmaradnak.With knowledge store, enriched documents are preserved. További információ: Knowledge Store.For more information, see Knowledge store.

3. lépés: a keresési index és a lekérdezésen alapuló hozzáférésStep 3: Search index and query-based access

A feldolgozás befejezésekor egy olyan keresési index található, amely az Azure Cognitive Searchban teljes mértékben kereshető dokumentumokból áll.When processing is finished, you have a search index consisting of enriched documents, fully text-searchable in Azure Cognitive Search. Az index lekérdezése , hogy a fejlesztők és a felhasználók hogyan érhetik el a folyamat által generált dúsított tartalmat.Querying the index is how developers and users access the enriched content generated by the pipeline.

Index keresési ikonnalIndex with search icon

Az index olyan, mint bármely más, amelyet az Azure Cognitive Search hoz létre: kiegészítheti az egyéni elemzőket, a fuzzy keresési lekérdezések meghívását, a szűrt keresés hozzáadását, illetve a keresési eredmények átalakítására szolgáló pontozási profilokkal való kísérletezést.The index is like any other you might create for Azure Cognitive Search: you can supplement with custom analyzers, invoke fuzzy search queries, add filtered search, or experiment with scoring profiles to reshape the search results.

Az indexek olyan index-sémából jönnek létre, amely meghatározza az adott indexhez csatolt mezőket, attribútumokat és egyéb szerkezeteket, például a pontozási profilokat és a szinonimákat.Indexes are generated from an index schema that defines the fields, attributes, and other constructs attached to a specific index, such as scoring profiles and synonym maps. Az indexek definiálása és feltöltése után a rendszer növekményes módon indexelheti az új és a frissített forrásdokumentum-dokumentumokat.Once an index is defined and populated, you can index incrementally to pick up new and updated source documents. Bizonyos módosítások teljes újraépítést igényelnek.Certain modifications require a full rebuild. Kis adatkészletet kell használnia, amíg a séma kialakítása nem stabil.You should use a small data set until the schema design is stable. A további tudnivalókért lásd az indexek újraépítését ismertető cikket.For more information, see How to rebuild an index.

Ellenőrzőlista: egy tipikus munkafolyamatChecklist: A typical workflow

  1. Az Azure-forrásadatok részhalmaza egy reprezentatív mintának.Subset your Azure source data into a representative sample. Az indexelés időt vesz igénybe, hogy egy kisebb, reprezentatív adatkészletet hozzon létre, majd fokozatosan felépítse a megoldás idejére.Indexing takes time so start with a small, representative data set and then build it up incrementally as your solution matures.

  2. Hozzon létre egy adatforrás-objektumot az Azure Cognitive Searchban, és adjon meg egy kapcsolódási karakterláncot az adatok lekéréséhez.Create a data source object in Azure Cognitive Search to provide a connection string for data retrieval.

  3. Hozzon létre egy készségkészlet a gazdagodás lépéseivel.Create a skillset with enrichment steps.

  4. Adja meg az index sémát.Define the index schema. A mezők gyűjteménye mezőket tartalmaz a forrásadatokből.The Fields collection includes fields from source data. Emellett további mezőket kell kimutatnia, amelyekkel megtarthatja a gazdagodás során létrehozott tartalomhoz generált értékeket.You should also stub out additional fields to hold generated values for content created during enrichment.

  5. Az adatforrásra, a készségkészlet és az indexre hivatkozó Indexelő definiálása.Define the indexer referencing the data source, skillset, and index.

  6. Az indexelő alkalmazásban adja hozzá a outputFieldMappings.Within the indexer, add outputFieldMappings. Ez a szakasz a készségkészlet (a 3. lépésben) lévő kimeneteket a tárgymutató sémájának bemenet mezőibe (a 4. lépésben) képezi le.This section maps output from the skillset (in step 3) to the inputs fields in the index schema (in step 4).

  7. Küldje el az imént létrehozott Indexer -kérést (egy post-kérést a kérelem törzsében lévő indexelő definícióval), hogy kifejezze az indexelő az Azure Cognitive Searchban.Send Create Indexer request you just created (a POST request with an indexer definition in the request body) to express the indexer in Azure Cognitive Search. Ez a lépés az indexelő futtatásának módja, a folyamat meghívása.This step is how you run the indexer, invoking the pipeline.

  8. Lekérdezések futtatása az eredmények kiértékeléséhez és a kód módosítása a szakértelmével, a séma vagy az indexelő konfigurációjának frissítéséhez.Run queries to evaluate results and modify code to update skillsets, schema, or indexer configuration.

  9. Az Indexelő alaphelyzetbe állítása a folyamat újraépítése előtt.Reset the indexer before rebuilding the pipeline.

Következő lépésekNext steps