Gyors útmutató: AI-indexelési folyamat létrehozása a kognitív képességek használatával Azure SearchQuickstart: Create an AI indexing pipeline using cognitive skills in Azure Search

A Azure Search a Cognitive Services, a tartalom kinyerését, a természetes nyelvi feldolgozást (NLP) és a képfeldolgozási képességeket egy Azure Search indexelési folyamatba integrálja, így a kereshető vagy strukturálatlan tartalmak kereshetők.Azure Search integrates with Cognitive Services, adding content extraction, natural language processing (NLP), and image processing skills to an Azure Search indexing pipeline, making unsearchable or unstructured content more searchable.

Számos Cognitive Services erőforrás – például az OCR, a nyelvfelismerés, az entitások felismerése , hogy a név néhány – egy indexelési folyamathoz csatolható.Many Cognitive Services resources - such as OCR, language detection, entity recognition to name a few - can be attached to an indexing process. A Cognitive Services AI-algoritmusai olyan minták, funkciók és tulajdonságok keresésére szolgálnak, amelyek a forrásadatok, a visszatérő struktúrák és a szöveges tartalom alapján használhatók, amelyek Azure Search alapján teljes szöveges keresési megoldásokban használhatók.The AI algorithms of Cognitive Services are used to find patterns, features, and characteristics in source data, returning structures and textual content that can be used in full-text search solutions based on Azure Search.

Ebben a rövid útmutatóban létrehozza az első alkoholtartalom-növelési folyamatát a Azure Portalban, mielőtt egyetlen sor kódot írna elő:In this quickstart, create your first enrichment pipeline in the Azure portal before writing a single line of code:

  • Kezdje az Azure Blob Storage mintaadataivalBegin with sample data in Azure Blob storage
  • Az adatimportálás varázsló konfigurálása a kognitív indexeléshez és a dúsításhozConfigure the Import data wizard for cognitive indexing and enrichment
  • Futtassa a varázslót (egy entitásképesség észleli a személyeket, a tartózkodási helyet és a szervezeteket)Run the wizard (an entity skill detects people, location, and organizations)
  • A bővített adatlekérdezés használata a Search ExplorerbenUse Search explorer to query the enriched data

Ez a rövid útmutató az ingyenes szolgáltatáson fut, de az ingyenes tranzakciók száma napi 20 dokumentumra korlátozódik.This quickstart runs on the Free service, but the number of free transactions is limited to 20 documents per day. Ha naponta többször szeretné futtatni ezt a rövid útmutatót, használjon kisebb fájlméretet, hogy több futtatással is elférjen.If you want to run this quickstart more than once daily, use a smaller file set so that you can fit in more runs.

Megjegyzés

Ha a hatókört a feldolgozás gyakoriságának növelésével, további dokumentumok hozzáadásával vagy további AI-algoritmusok hozzáadásával bővíti, akkor a számlázható Cognitive Services erőforrástkell csatolnia.As you expand scope by increasing the frequency of processing, adding more documents, or adding more AI algorithms, you will need to attach a billable Cognitive Services resource. Az API-k Cognitive Services-ben való meghívásakor felmerülő díjak, valamint a képek kinyerése a dokumentum repedési szakaszának részeként Azure Search.Charges accrue when calling APIs in Cognitive Services, and for image extraction as part of the document-cracking stage in Azure Search. A dokumentumokból való szöveg kinyerése díjmentes.There are no charges for text extraction from documents.

A beépített készségek elvégzése a meglévő Cognitive Services utólagos elszámolású díjszabás szerinttörténik.Execution of built-in skills is charged at the existing Cognitive Services pay-as-you go price. A rendszerkép kibontásának díjszabását a Azure Search díjszabási oldalántalálja.Image extraction pricing is described on the Azure Search pricing page.

Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes fiókot a virtuális gép létrehozásának megkezdése előtt.If you don't have an Azure subscription, create a free account before you begin.

ElőfeltételekPrerequisites

Hozzon létre egy Azure Search szolgáltatást , vagy keressen egy meglévő szolgáltatást a jelenlegi előfizetése alatt.Create an Azure Search service or find an existing service under your current subscription. Ehhez a rövid útmutatóhoz ingyenes szolgáltatást is használhat.You can use a free service for this quickstart.

Cognitive Services biztosítja a mesterséges intelligenciát.Cognitive Services provides the AI. Ez a rövid útmutató a folyamat megadásához szükséges lépéseket tartalmazza ezen erőforrások vonalbeli hozzáadásához.This quickstart includes steps for adding these resources in-line, when specifying the pipeline. A fiókokat nem szükséges előre beállítani.It's not necessary to set up accounts in advance.

Az Azure-szolgáltatásoknak meg kell adniuk az indexelési folyamat bemeneteit.Azure services are required to provide the inputs to the indexing pipeline. Az Azure Search indexelő által támogatott bármely adatforrás használható, kivéve az Azure Table Storaget, ami AI-indexeléshez nem támogatott.You can use any data source supported by Azure Search indexers except for Azure Table Storage, which is not supported for AI indexing. Ez a rövid útmutató az Azure Blob Storage -t használja tárolóként a forrásként szolgáló adatfájlokhoz.This quickstart uses Azure Blob storage as a container for source data files.

Az Azure Blob szolgáltatás beállítása és a mintaadatok betöltéseSet up Azure Blob service and load sample data

  1. Töltsön le mintaadatokat, amelyek különböző típusú fájlok kis készletéből állnak.Download sample data consisting of a small file set of different types.

  2. Regisztráljon az Azure Blob Storage-hoz, hozzon létre egy Storage-fiókot, nyissa meg a blob Services-lapokat, és hozzon létre egy tárolót.Sign up for Azure Blob storage, create a storage account, open the Blob services pages, and create a container. Hozza létre a Storage-fiókot ugyanabban a régióban, mint Azure Search.Create the storage account in the same region as Azure Search.

  3. A létrehozott tárolóban kattintson a feltöltés gombra az előző lépésben letöltött mintaképek feltöltéséhez.In the container you created, click Upload to upload the sample files you downloaded in a previous step.

    Forrásfájlok az Azure Blob Storage-ban

A bővítési folyamat létrehozásaCreate the enrichment pipeline

Térjen vissza a Azure Search szolgáltatás irányítópultja lapra, és kattintson az adatimportálás parancsra a parancssávban, és állítsa be a kognitív dúsítást négy lépésben.Return to the Azure Search service dashboard page and click Import data on the command bar to set up cognitive enrichment in four steps.

Adatok importálása parancs

1. lépés: Adatforrás létrehozásaStep 1: Create a data source

A Kapcsolódás az adataihozlapon válassza az Azure Blob Storagelehetőséget, majd válassza ki a létrehozott fiókot és tárolót.In Connect to your data, choose Azure Blob storage, select the account and container you created. Adjon nevet az adatforrásnak, a többi beállításnál pedig használja az alapértelmezett értékeket.Give the data source a name, and use default values for the rest.

Azure Blob-konfiguráció

Folytassa a következő oldallal.Continue to the next page.

A következő oldal gomb a kognitív kereséshez

2. lépés: Kognitív képességek hozzáadásaStep 2: Add cognitive skills

Ezután adja hozzá a bővítési lépéseket az indexelési folyamathoz.Next, add enrichment steps to the indexing pipeline. Ha nem rendelkezik Cognitive Services erőforrással, regisztrálhat egy ingyenes verzióra, amely naponta 20 tranzakciót biztosít.If you do not have a Cognitive Services resource, you can sign up for a free version that gives you 20 transactions daily. A mintaadatok 14 fájlból állnak, így a napi kiosztása többnyire a varázsló futtatása után lesz felhasználva.The sample data consists of 14 files, so your daily allocation will be mostly used up once you run this wizard.

  1. Bontsa ki a csatolás Cognitive Services elemet a Cognitive Services API-k újraforrására vonatkozó beállítások megtekintéséhez.Expand Attach Cognitive Services to view options for resourcing the Cognitive Services APIs. Ebben az oktatóanyagban használhatja az ingyenes erőforrást.For the purposes of this tutorial, you can use the Free resource.

    A Cognitive Services csatolása

  2. Bontsa ki a bővítések hozzáadása lehetőséget, és válassza ki a természetes nyelvi feldolgozást végző szaktudást.Expand Add Enrichments and select skills that perform natural language processing. Ebben a rövid útmutatóban válassza az entitások felismerése lehetőséget a személyekhez, szervezetekhez és helyekhez.For this quickstart, choose entity recognition for people, organizations, and locations.

    A Cognitive Services csatolása

    A portál beépített képességeket kínál az OCR-feldolgozáshoz és a szöveges elemzésekhez.The portal offers built-in skills for OCR processing and text analysis. A portálon egy képességcsoport egyetlen forrásmezőn végez műveleteket.In the portal, a skillset operates over a single source field. Ez kis célnak tűnhet, de az Azure-blobok esetében a blobdokumentum (például egy Word-dokumentum vagy egy PowerPoint-bemutató) legnagyobb részét a content mező tartalmazza.That might seem like a small target, but for Azure blobs the content field contains most of the blob document (for example, a Word doc or PowerPoint deck). Ez a mező tehát nem ideális bemenet, mert egy blob összes tartalma szerepel benne.As such, this field is an ideal input because all of a blob's content is there.

  3. Folytassa a következő oldallal.Continue to the next page.

    Következő oldal testreszabása index

Megjegyzés

A természetes nyelvi feldolgozási képességek a mintaadatkészletbeli szöveges tartalmakon végeznek műveleteket.Natural language processing skills operate over text content in the sample data set. Mivel nem választottuk ki az OCR beállítást, a rendszer nem dolgozza fel a minta adatkészletben található JPEG-és PNG-fájlokat ebben a rövid útmutatóban.Since we didn't select the OCR option, the JPEG and PNG files found in the sample data set won't be processed in this quickstart.

3. lépés: Az index konfigurálásaStep 3: Configure the index

A varázsló általában egy alapértelmezett indexet tud kikövetkeztetni.The wizard can usually infer a default index. Ebben a lépésben megtekintheti a generált index sémát, és esetleg módosíthatja a beállításokat.In this step, you can view the generated index schema and potentially revise any settings. Alább látható a bemutató blob adatkészletéhez létrehozott alapértelmezett index.Below is the default index created for the demo Blob data set.

Ebben a rövid útmutatóban a varázsló észszerű alapértelmezett beállításokat határoz meg:For this quickstart, the wizard does a good job setting reasonable defaults:

  • Az alapértelmezett név a azureblob-index az adatforrás típusa alapján.Default name is azureblob-index based on the data source type.

  • Az alapértelmezett mezők az eredeticontentforrásoldali adatmezőn () alapulnak, valamint a kognitív folyamat által létrehozott kimeneti mezők (people, organizationsés locations).Default fields are based on the original source data field (content), plus the output fields (people, organizations, and locations) created by the cognitive pipeline. Az alapértelmezett adattípusok a metaadatok és az adatok mintavételezésére utalnak.Default data types are inferred from metadata and data sampling.

  • Az alapértelmezett kulcs a metadata_storage_path (ez a mező egyedi értékeket tartalmaz).Default key is metadata_storage_path (this field contains unique values).

  • Az alapértelmezett attribútumok lekérhető és kereshetők ezekhez a mezőkhöz.Default attributes are Retrievable and Searchable for these fields. Kereshető azt jelzi, hogy egy mező kereshető.Searchable indicates a field can be searched. A lekérdezhető érték azt jelenti, hogy visszaadható az eredmények között.Retrievable means it can be returned in results. A varázsló feltételezi, hogy ezek a mezők lekérhető és kereshetők, mert egy készségkészlet keresztül hozta létre őket.The wizard assumes you want these fields to be retrievable and searchable because you created them via a skillset.

    Indexmezők

Figyelje meg a content lekéréses attribútum áthúzott és kérdőjel értékét a mező alapján.Notice the strikethrough and question mark on the Retrievable attribute by the content field. Szöveg – nagy méretű blob-dokumentumok esetén content a mező a fájl nagy részét tartalmazza, amely akár több ezer sorra is futhat.For text-heavy blob documents, the content field contains the bulk of the file, potentially running into thousands of lines. Ha meg kell adnia a fájl tartalmát az ügyfél kódjához, győződjön meg arról, hogy a beolvasható maradok lehetőség van kiválasztva.If you need to pass file contents to client code, make sure that Retrievable stays selected. Ellenkező esetben érdemes lehet törölni ezt az content attribútumot, ha apeoplekinyert locationselemek (, organizationsés) elegendőek a célra.Otherwise, consider clearing this attribute on content if the extracted elements (people, organizations, and locations) are sufficient for your purposes.

A mezők beolvasható való megjelölése nem jelenti azt, hogy a mezőnek jelen kell lennie a keresési eredmények között.Marking a field as Retrievable does not mean that the field must be present in the search results. A keresési eredmények összetételét pontosan vezérelheti a $Select lekérdezési paraméterrel, hogy megadja, hogy mely mezők szerepeljenek hozzá.You can precisely control search results composition by using the $select query parameter to specify which fields to include. A Text-nagy méretű mezőkhöz hasonlóan contenta $Select paraméter a felügyelhető keresési eredmények az alkalmazás emberi felhasználói számára való biztosítására szolgáló megoldás, miközben az ügyfél kódjának hozzáférése van az összes szükséges információhoz aBeolvasható attribútum.For text-heavy fields like content, the $select parameter is your solution for providing manageable search results to the human users of your application, while ensuring client code has access to all the information it needs via the Retrievable attribute.

Folytassa a következő oldallal.Continue to the next page.

Következő oldal létrehozása indexelő

4. lépés: Az indexelő konfigurálásaStep 4: Configure the indexer

Az indexelő az indexelési folyamatot irányító magas szintű erőforrás.The indexer is a high-level resource that drives the indexing process. Meghatározza az adatforrás nevét, a célként megadott indexet és a végrehajtás gyakoriságát.It specifies the data source name, a target index, and frequency of execution. Az Adatok importálása varázsló mindig egy indexelőt eredményez, amely ismétlődő jelleggel futtatható.The end result of the Import data wizard is always an indexer that you can run repeatedly.

Az Indexelő lapon fogadja el az alapértelmezett nevet, és a Futtatás egyszeres futtatása lehetőséget használva azonnal futtathatja azt.In the Indexer page, you can accept the default name and use the Run once schedule option to run it immediately.

Az indexelő definíciója

Kattintson a Submit (Küldés ) gombra az indexelő létrehozásához és egyidejű futtatásához.Click Submit to create and simultaneously run the indexer.

Indexelés figyeléseMonitor indexing

A dúsítási lépések végrehajtása hosszabb időt is igénybe véve, mint a szokásos szöveges indexelés.Enrichment steps take longer to complete than typical text-based indexing. A varázslónak meg kell nyitnia az indexelő listát az Áttekintés oldalon, hogy nyomon követhesse a folyamat előrehaladását.The wizard should open the Indexer list in the overview page so that you can track progress. Az önnavigációhoz lépjen az Áttekintés lapra, és kattintson az Indexelőelemre.For self-navigation, go to the Overview page and click Indexers.

A figyelmeztetés azért fordul elő, mert a JPG-és PNG-fájlok képfájlok, és kihagyták az OCR-képességet ebből a folyamatból.The warning occurs because JPG and PNG files are image files, and we omitted the OCR skill from this pipeline. Emellett csonkolt értesítéseket is talál.You'll also find truncation notifications. A Azure Search korlátozza az ingyenes szinten 32 000 karakter kinyerését.Azure Search limits extraction to 32,000 characters on the Free tier.

Azure Search-értesítés

Az indexelés és a bővítés sok időt vehet igénybe, ezért a funkció kipróbálásához kisebb adatkészletek használatát javasoljuk.Indexing and enrichment can take time, which is why smaller data sets are recommended for early exploration.

Lekérdezés a Keresési ablakbanQuery in Search explorer

Miután az index létrejött, lekérdezéseket küldhet be, amelyek dokumentumokat adnak vissza az indexből.After an index is created, you can submit queries to return documents from the index. A portálon használja a Keresési ablakot a lekérdezések futtatásához és az eredmények megtekintéséhez.In the portal, use Search explorer to run queries and view results.

  1. A keresési szolgáltatás Irányítópult lapján kattintson a parancssávon található Keresési ablak elemre.On the search service dashboard page, click Search explorer on the command bar.

  2. A létrehozott index kiválasztásához kattintson az Index módosítása lehetőségre az oldal tetején.Select Change Index at the top to select the index you created.

  3. Adja meg a keresési karakterláncot az index lekérdezéséhez, search=Microsoft&searchFields=organizationspéldául:.Enter a search string to query the index, such as search=Microsoft&searchFields=organizations.

A rendszer JSON-formátumban adja vissza az eredményeket, amely különösen az Azure-blobokból származó nagyméretű dokumentumok esetén részletes és nehezen olvasható lehet.Results are returned in JSON, which can be verbose and hard to read, especially in large documents originating from Azure blobs. Ha az eredményeket nem lehet egyszerűen áttekinteni, a CTRL-F billentyűkombinációval kereshet a dokumentumokban.If you can't scan results easily, use CTRL-F to search within documents. Ehhez a lekérdezéshez a JSON-ban megadott feltételek alapján kereshet.For this query, you could search within the JSON for specific terms.

A CTRL-F billentyűkombináció abban is segítségére lehet, hogy meghatározza az egy adott eredményhalmazban szereplő dokumentumok számát.CTRL-F can also help you determine how many documents are in a given result set. Az Azure-blobok esetében a portál a „metadata_storage_path” kulcsot választja, mert annak minden értéke egyedi a dokumentumban.For Azure blobs, the portal chooses "metadata_storage_path" as the key because each value is unique to the document. A CTRL-F billentyűkombinációval keressen a „metadata_storage_path” kifejezésre, amely visszaadja a dokumentumok számát.Using CTRL-F, search for "metadata_storage_path" to get a count of documents.

Keresési ablak – példa

Legfontosabb ismeretekTakeaways

Ezzel befejezte az első kognitív-gazdagított indexelési gyakorlatát.You've now completed your first cognitive-enriched indexing exercise. Ennek a rövid útmutatónak a célja az volt, hogy bemutassa a legfontosabb alapelveket, és végigvezesse a varázsló lépésein, hogy saját adatait felhasználva gyorsan elkészíthesse egy kognitív keresési megoldás prototípusát.The purpose of this quickstart was to introduce important concepts and walk you through the wizard so that you can quickly prototype a cognitive search solution using your own data.

Az általunk közvetíteni kívánt legfontosabb alapelvek egyike az Azure-adatforrásoktól való függőség.Some key concepts that we hope you picked up include the dependency on Azure data sources. A kognitív keresési bővítés az indexelőkhöz kötődik, az indexelők pedig Azure- és forrásspecifikusak.Cognitive search enrichment is bound to indexers, and indexers are Azure and source-specific. Bár ez a rövid útmutató az Azure Blob Storage-ot használja, más Azure-adatforrások használata is lehetséges.Although this quickstart uses Azure Blob storage, other Azure data sources are possible. További információkért lásd az indexelők az Azure Search szolgáltatásban történő használatának ismertetését.For more information, see Indexers in Azure Search.

Egy másik fontos alapelv szerint a képességek a bemeneti mezőkön végeznek műveleteket.Another important concept is that skills operate over input fields. A portálon minden képességhez egyetlen forrásmezőt kell választania.In the portal, you have to choose a single source field for all the skills. A kódban a bemenetek lehetnek más mezők, vagy egy felsőbb rétegbeli képesség kimenetei.In code, inputs can be other fields, or the output of an upstream skill.

Egy képesség bemenetei egy index kimeneti mezőjéhez vannak rendelve.Inputs to a skill are mapped to an output field in an index. Belsőleg a portál jegyzeteket állít be és definiál egy képességcsoportot, amellyel megalapozza a műveletek sorrendjét és az általános folyamatot.Internally, the portal sets up annotations and defines a skillset, establishing the order of operations and general flow. Ezeket a lépéseket a rendszer elrejti a portálon, ám az alapelvek ismerete fontos, amikor hozzálát a kód írásához.These steps are hidden in the portal, but when you start writing code, these concepts become important.

Végezetül megtanulta, hogy az eredmények az index lekérdezésével tekinthetők meg.Finally, you learned that viewing results is achieved by querying the index. Végeredményben az Azure Search egy kereshető indexet biztosít, amelynek lekérdezését az egyszerű vagy a teljes lekérdezési szintaxis használatával végezheti el.In the end, what Azure Search provides is a searchable index, which you can query using either the simple or fully extended query syntax. A bővített mezőket tartalmazó index ugyanúgy működik, akár az összes többi.An index containing enriched fields is like any other. Ha standard vagy egyéni elemzőket, pontozási profilokat, szinonimákat, jellemzőalapú szűrőket, földrajzihely-alapú keresést vagy egyéb Azure Search-szolgáltatásokat szeretne használni, természetesen azt is megteheti.If you want to incorporate standard or custom analyzers, scoring profiles, synonyms, faceted filters, geo-search, or any other Azure Search feature, you can certainly do so.

A fölöslegessé vált elemek eltávolításaClean up

Ha saját előfizetésében dolgozik, a projekt végén érdemes megállapítani, hogy továbbra is szüksége van-e a létrehozott erőforrásokra.When you're working in your own subscription, it's a good idea at the end of a project to identify whether you still need the resources you created. A már futó erőforrások pénzbe kerülnek.Resources left running can cost you money. Az erőforrásokat egyenként is törölheti, vagy az erőforráscsoport törlésével törölheti a teljes erőforrás-készletet.You can delete resources individually or delete the resource group to delete the entire set of resources.

A bal oldali navigációs panelen a minden erőforrás vagy erőforráscsoport hivatkozás használatával megkeresheti és kezelheti az erőforrásokat a portálon.You can find and manage resources in the portal, using the All resources or Resource groups link in the left-navigation pane.

Ha ingyenes szolgáltatást használ, ne feledje, hogy Ön legfeljebb három indexet, indexelő és adatforrást használhat.If you are using a free service, remember that you are limited to three indexes, indexers, and data sources. A portálon törölheti az egyes elemeket, hogy a korlát alatt maradjon.You can delete individual items in the portal to stay under the limit.

További lépésekNext steps

A Cognitive Services erőforrás kiépített módjától függően a varázsló újrafuttatásával különböző képességekkel és forrásadatok mezőivel kísérletezheti az indexeléssel és a dúsítással.Depending on how you provisioned Cognitive Services resource, you can experiment with indexing and enrichment by rerunning the wizard with different skills and source data fields. A lépések megismétléséhez törölje az indexelőt, majd hozza létre újra az indexelőt más választott beállításokkal.To repeat the steps, delete the index and indexer, then recreate the indexer with a new mix of selections.

  • Az Áttekintés > Indexelők résznél válassza ki a létrehozott indexet, majd kattintson a Törlés lehetőségre.In Overview > Indexes, select the index you created, and then click Delete.

  • Az Áttekintés résznél kattintson duplán az Indexelők csempére.In Overview, double-click the Indexers tile. Keresse meg a létrehozott indexelőt, és törölje azt.Find the indexer you created and delete it.

Vagy a létrehozott mintaadatokat és szolgáltatásokat újból felhasználva a következő oktatóanyagból megtanulhatja, hogyan végezheti el ugyanazokat a feladatokat programozott módon.Alternatively, reuse the sample data and services you created, and learn how to perform the same tasks programmatically in the next tutorial.