BLOB depolama verilerini anlamak için AI kullanmaUse AI to understand Blob storage data

Azure Blob depolamada bulunan veriler genellikle görüntüler, uzun metin, PDF 'Ler ve Office belgeleri gibi yapılandırılmamış içerik olan çok çeşitli içeriktir.Data in Azure Blob storage is often a variety of unstructured content such as images, long text, PDFs, and Office documents. Azure Bilişsel Arama 'de AI özelliklerini kullanarak, çeşitli yollarla bloblardan değerli bilgileri anlayabilir ve ayıklayabilirsiniz.By using the AI capabilities in Azure Cognitive Search, you can understand and extract valuable information from blobs in a variety of ways. Blob içeriğine AI uygulama örnekleri şunlardır:Examples of applying AI to blob content include:

  • Optik karakter tanıma özelliğini kullanarak görüntülerden metin ayıklama (OCR)Extract text from images using optical character recognition (OCR)
  • Fotoğraftan bir sahne açıklaması veya etiketleri üretmeProduce a scene description or tags from a photo
  • Dili algıla ve metni farklı dillere çevirDetect language and translate text into different languages
  • Kişilere, tarihlere, yerlere veya kuruluşlara yönelik başvuruları bulmak için adlandırılmış varlık tanıma (NER) ile metin işlemeProcess text with named entity recognition (NER) to find references to people, dates, places, or organizations

Bu AI özelliklerinden yalnızca birine ihtiyacınız olabilir, ancak birden çok aynı işlem hattına (örneğin, taranmış bir görüntüden metin ayıklanarak ve bu konumda başvurulan tüm tarihleri ve yerleri buluyor) daha yaygın olarak vardır.While you might need just one of these AI capabilities, it’s common to combine multiple of them into the same pipeline (for example, extracting text from a scanned image and then finding all the dates and places referenced in it).

AI zenginleştirme, metin olarak yakalanan ve alanlarda depolanan yeni bilgiler oluşturur.AI enrichment creates new information, captured as text, stored in fields. Son zenginleştirme, bu bilgilere tam metin araması aracılığıyla bir arama dizininden erişebilirsiniz veya bulma veya analiz senaryoları için verileri araştırmayı kapsayan yeni uygulama deneyimlerine Power Storage 'a zenginleştirilmiş belgeler gönderebilirsiniz.Post-enrichment, you can access this information from a search index through full text search, or send enriched documents back to Azure storage to power new application experiences that include exploring data for discovery or analytics scenarios.

Bu makalede, Bloblar içindeki ham verileri bir arama dizininde veya bilgi deposunda sorgulanabilir bilgilere dönüştürmek için, tüm süreci hızlı bir şekilde bir lens aracılığıyla bir çok lens aracılığıyla inceleyeceğiz.In this article, we view AI enrichment through a wide lens so that you can quickly grasp the entire process, from transforming raw data in blobs, to queryable information in either a search index or a knowledge store.

AI ile "zenginleştirme" blobu verilerinin ne anlama geldiğiniWhat it means to "enrich" blob data with AI

AI zenginleştirme , Microsoft 'un veya SAĞLADıĞıNıZ özel AI 'nın yerleşik AI 'Ni tümleştiren Azure bilişsel arama 'in dizin oluşturma mimarisinin bir parçasıdır.AI enrichment is part of the indexing architecture of Azure Cognitive Search that integrates built-in AI from Microsoft or custom AI that you provide. Blob 'ları (varsa veya güncelleştirdikleri gibi mevcut olanları ve yeni olanları) işlemek için tüm dosya biçimlerini açmak, çeşitli AI yeteneklerini kullanarak istenen bilgileri ayıklamak, ve ' yi hızlı arama, alma ve araştırma için bir arama dizininde dizin oluşturma.It helps you implement end-to-end scenarios where you need to process blobs (both existing ones and new ones as they come in or are updated), crack open all file formats to extract images and text, extract the desired information using various AI capabilities, and index them in a search index for fast search, retrieval and exploration.

Azure Blob depolama alanında, tek bir kapsayıcıda bulunan bloblarınızın girdileri vardır.Inputs are your blobs, in a single container, in Azure Blob storage. Blob 'lar neredeyse her türlü metin veya resim verisi olabilir.Blobs can be almost any kind of text or image data.

Çıktı, istemci uygulamalarında hızlı metin arama, alma ve araştırma için kullanılan her zaman bir arama dizinidir.Output is always a search index, used for fast text search, retrieval, and exploration in client applications. Ayrıca, çıktı Ayrıca, belgeleri Azure Blob 'larına veya Power BI ya da veri bilimi iş yükleri gibi araçlarla aşağı akış analizi için Azure tablolarına zenginleştiren bir bilgi deposu da olabilir.Additionally, output can also be a knowledge store that projects enriched documents into Azure blobs or Azure tables for downstream analysis in tools like Power BI or in data science workloads.

Between, ardışık düzen mimarisinin kendisidir.In between is the pipeline architecture itself. İşlem hattı, AI sağlayan bir veya daha fazla beceriden oluşan bir beceriatayabileceğiniz Dizin Oluşturucu özelliğini temel alır.The pipeline is based on the indexer feature, to which you can assign a skillset, which is composed of one or more skills providing the AI. İşlem hattının amacı, ham içerik olarak girebileceğiniz ancak ardışık düzen boyunca geçiş yaparken ek yapıyı, bağlamı ve bilgileri alan, zenginleştirilmiş belgeler oluşturmak için kullanılır.The purpose of the pipeline is to produce enriched documents that enter as raw content but pick up additional structure, context, and information while moving through the pipeline. Zenginleştirilmiş belgeler, tam metin aramasında veya araştırmayla ve analizte kullanılan ters dizinler ve diğer yapılar oluşturmak için dizin oluşturma sırasında tüketilecektir.Enriched documents are consumed during indexing to create inverted indexes and other structures used in full text search or exploration and analytics.

Hizmetlerle başlayınStart with services

Azure Bilişsel Arama ve Azure Blob depolamaya ihtiyacınız vardır.You need Azure Cognitive Search and Azure Blob storage. BLOB depolama alanında, kaynak içerik sağlayan bir kapsayıcıya ihtiyacınız vardır.Within Blob storage, you need a container that provides source content.

Doğrudan depolama hesabı portalı sayfanızda başlayabilirsiniz.You can start directly in your Storage account portal page. Sol Gezinti sayfasında, BLOB hizmeti altında Azure bilişsel arama Ekle ' ye tıklayarak yeni bir hizmet oluşturun veya var olan bir hizmeti seçin.In the left navigation page, under Blob service click Add Azure Cognitive Search to create a new service or select an existing one.

Depolama hesabınıza Azure Bilişsel Arama eklediğinizde, herhangi bir Azure veri kaynağındaki verileri zenginleştirmek için standart işlemi izleyebilirsiniz.Once you add Azure Cognitive Search to your storage account, you can follow the standard process to enrich data in any Azure data source. AI zenginleştirme 'ya kolay bir başlangıç için Azure Bilişsel Arama veri alma Sihirbazı 'nı öneririz.We recommend the Import data wizard in Azure Cognitive Search for an easy initial introduction to AI enrichment. Bu hızlı başlangıçta, portalda BIR AI zenginleştirme işlem hattı oluşturmaadımları anlatılmaktadır.This quickstart walks you through the steps: Create an AI enrichment pipeline in the portal.

Aşağıdaki bölümlerde, daha fazla bileşen ve kavram keşfedeceğiz.In the following sections, we'll explore more components and concepts.

Blob Dizin Oluşturucu kullanmaUse a Blob indexer

AI zenginleştirme, dizin oluşturma işlem hattının bir eklentisi ve Azure Bilişsel Arama, bu işlem hatları bir dizin oluşturucununüzerine kurulmuştur.AI enrichment is an add-on to an indexing pipeline, and in Azure Cognitive Search, those pipelines are built on top of an indexer. Dizin Oluşturucu, verileri örnekleme, meta veri verileri okuma, verileri alma ve yerel biçimlerdeki verileri, sonraki içeri aktarma için JSON belgelerine serileştirmede iç mantığa sahip olan veri kaynağı kullanan bir alt hizmettir.An indexer is a data-source-aware subservice equipped with internal logic for sampling data, reading metadata data, retrieving data, and serializing data from native formats into JSON documents for subsequent import. Dizin oluşturucular genellikle AI tarafından içeri aktarma için kullanılır, ancak bir AI zenginleştirme işlem hattı oluşturmak istiyorsanız, bir Dizin Oluşturucu ve bir beceri ile birlikte çalışmak için bir gerekir.Indexers are often used by themselves for import, separate from AI, but if you want to build an AI enrichment pipeline, you will need an indexer and a skillset to go with it. Bu bölüm, Dizin oluşturucuyu vurgular; sonraki bölüm becerileri 'e odaklanır.This section highlights the indexer; the next section focuses on skillsets.

Azure depolama 'daki Bloblar, azure bilişsel arama blob Storage Indexerkullanılarak dizine alınır.Blobs in Azure Storage are indexed using the Azure Cognitive Search Blob storage indexer. Veri alma Sihirbazı 'nı, bir REST API veya .NET SDK 'sını kullanarak bu dizin oluşturucuyu çağırabilirsiniz.You can invoke this indexer by using the Import data wizard, a REST API, or the .NET SDK. Kod içinde, bu dizin oluşturucuyu türü ayarlayarak ve bir blob kapsayıcısı ile birlikte bir Azure depolama hesabı içeren bağlantı bilgilerini sağlayarak kullanırsınız.In code, you use this indexer by setting the type, and by providing connection information that includes an Azure Storage account along with a blob container. Daha sonra bir parametre olarak geçirebilen veya bir dosya türü uzantısı üzerinde filtreleyerek sanal bir dizin oluşturarak bloblarınızı alt kümelayabilirsiniz.You can subset your blobs by creating a virtual directory, which you can then pass as a parameter, or by filtering on a file type extension.

Bir Dizin Oluşturucu, içeriği incelemek için bir blob açan "belgeyi çözme" yapmaz.An indexer does the "document cracking", opening a blob to inspect content. Veri kaynağına bağlandıktan sonra, işlem hattının ilk adımı vardır.After connecting to the data source, it's the first step in the pipeline. Blob verileri için PDF, Office belgeleri, görüntü ve diğer içerik türlerinin algılandığı yerdir.For blob data, this is where PDF, office docs, image, and other content types are detected. Metin ayıklama ile belge çözme ücretsizdir.Document cracking with text extraction is no charge. Görüntü ayıklama ile belge çözme, fiyatlandırma sayfasındabulabileceğiniz oranlar üzerinden ücretlendirilir.Document cracking with image extraction is charged at rates you can find on the pricing page.

Tüm belgelerin kırdığı halde, zenginleştirme yalnızca açıkça bunu yapmak için becerileri sağladığınızda oluşur.Although all documents will be cracked, enrichment only occurs if you explicitly provide the skills to do so. Örneğin, işlem hattınız yalnızca görüntü analizini içeriyorsa, kapsayıcıınızdaki veya belgelerinizdeki metin yok sayılır.For example, if your pipeline consists exclusively of image analysis, text in your container or documents is ignored.

Blob Indexer yapılandırma parametreleriyle birlikte gelir ve temel alınan veriler yeterli bilgi sağlıyorsa değişiklik izlemeyi destekler.The Blob indexer comes with configuration parameters and supports change tracking if the underlying data provides sufficient information. Azure bilişsel arama blob Storage Indexer'ın temel işlevleri hakkında daha fazla bilgi edinebilirsiniz.You can learn more about the core functionality in Azure Cognitive Search Blob storage indexer.

AI bileşenleri eklemeAdd AI components

AI zenginleştirme, desenleri veya özellikleri belirten modüller anlamına gelir ve sonra bir işlemi buna göre gerçekleştirir.AI enrichment refers to modules that look for patterns or characteristics, and then perform an operation accordingly. Fotoğraflarda yüz tanıma, fotoğrafların metin açıklamaları, bir belgedeki anahtar tümceleri algılama ve OCR (ya da ikili dosyalardaki yazdırılmış veya el ile yazılmış metinleri tanıma) tanım örnekleri verilmiştir.Facial recognition in photos, text descriptions of photos, detecting key phrases in a document, and OCR (or recognizing printed or handwritten text in binary files) are illustrative examples.

Azure Bilişsel Arama, beceriler tek başına kullanabileceğiniz veya diğer becerilerle birlikte tek tek tekil AI işleme bileşenleridir.In Azure Cognitive Search, skills are the individual components of AI processing that you can use standalone, or in combination with other skills.

  • Yerleşik yetenekler bilişsel hizmetler tarafından desteklenir, Görüntü İşleme dayalı görüntü analizi ve Metin Analizi temelinde doğal dil işleme.Built-in skills are backed by Cognitive Services, with image analysis based on Computer Vision, and natural language processing based on Text Analytics. Tam liste için bkz. içerik zenginleştirme Için yerleşik yetenekler.For the complete list, see Built-in skills for content enrichment.

  • Özel yetenekler, işlem hattına tümleştirmeye izin veren bir arabirim tanımına Sarmalanan özel koddur.Custom skills are custom code, wrapped in an interface definition that allows for integration into the pipeline. Müşteri çözümlerinde, açık kaynaklı, üçüncü taraf veya birinci taraf AI modülleri sağlayan özel yetenekler ile her ikisini de kullanmak yaygın bir uygulamadır.In customer solutions, it's common practice to use both, with custom skills providing open-source, third-party, or first-party AI modules.

Beceri , bir işlem hattında kullanılan yeteneklerin koleksiyonudur ve belge çözme aşaması içeriği kullanılabilir hale getirdikten sonra çağrılır.A skillset is the collection of skills used in a pipeline, and it's invoked after the document cracking phase makes content available. Bir Dizin Oluşturucu tam olarak bir beceri tüketebilir, ancak diğer senaryolarda yeniden kullanabilmeniz için bu beceri bir dizin oluşturucudan bağımsız olarak mevcuttur.An indexer can consume exactly one skillset, but that skillset exists independently of an indexer so that you can reuse it in other scenarios.

Özel yetenekler karmaşık olabilir, ancak uygulama bakımından basit ve kolay olabilir.Custom skills might sound complex but can be simple and straightforward in terms of implementation. Model eşleştirme veya sınıflandırma modelleri sağlayan mevcut Paketleriniz varsa, bloblardan ayıklamanız gereken içerik işlenmek üzere bu modellere geçirilebilir.If you have existing packages that provide pattern matching or classification models, the content you extract from blobs could be passed to these models for processing. AI zenginleştirme, Azure tabanlı olduğundan modelinize Azure 'da da sahip olmanız gerekir.Since AI enrichment is Azure-based, your model should be on Azure also. Bazı yaygın barındırma yöntemleri Azure işlevleri veya kapsayıcılarıkullanmayı içerir.Some common hosting methodologies include using Azure Functions or Containers.

Bilişsel hizmetler tarafından desteklenen yerleşik yetenekler, kaynağa erişmenizi sağlayan, bağlı bilişsel hizmetlerin hepsi bir arada bir abonelik anahtarı gerektirir.Built-in skills backed by Cognitive Services require an attached Cognitive Services all-in-one subscription key that gives you access to the resource. Hepsi bir arada anahtar, görüntü analizi, dil algılama, metin çevirisi ve metin analizi sağlar.An all-in-one key gives you image analysis, language detection, text translation, and text analytics. Diğer yerleşik yetenekler Azure Bilişsel Arama özelliklerdir ve ek hizmet veya anahtar gerektirmez.Other built-in skills are features of Azure Cognitive Search and require no additional service or key. Metin Shaper, Splitter ve birleşme, işlem hattı tasarlarken bazen gerekli olan yardımcı beceriler örnekleridir.Text shaper, splitter, and merger are examples of helper skills that are sometimes necessary when designing the pipeline.

Yalnızca özel yetenekler ve yerleşik yardımcı program becerileri kullanıyorsanız, bilişsel hizmetlerle ilgili bağımlılık veya maliyet yoktur.If you use only custom skills and built-in utility skills, there is no dependency or costs related to Cognitive Services.

Aşağı akış çözümlerinde AI zenginleştirme çıkışı kullanmaConsume AI-enriched output in downstream solutions

AI zenginleştirme çıktısı, Azure Bilişsel Arama 'deki bir arama dizinidir veya Azure Storage 'daki bir bilgi deposudur .The output of AI enrichment is either a search index on Azure Cognitive Search, or a knowledge store in Azure Storage.

Azure Bilişsel Arama 'de, bir istemci uygulamasında ücretsiz metin ve filtrelenmiş sorgular kullanan etkileşimli araştırma için bir arama dizini kullanılır.In Azure Cognitive Search, a search index is used for interactive exploration using free text and filtered queries in a client app. AI aracılığıyla oluşturulan zenginleştirilmiş belgeler, bir dizin oluşturucunun sağladığı avantajlardan yararlanarak Azure Bilişsel Arama 'de tüm belgelerin dizinlendiği şekilde JSON ve dizinli olarak biçimlendirilir.Enriched documents created through AI are formatted in JSON and indexed in the same way all documents are indexed in Azure Cognitive Search, leveraging all of the benefits an indexer provides. Örneğin, dizin oluşturma sırasında, blob Indexer herhangi bir alan eşlemelerini kullanmak veya algılama mantığını değiştirmek için yapılandırma parametreleri ve ayarları anlamına gelir.For example, during indexing, the blob indexer refers to configuration parameters and settings to utilize any field mappings or change detection logic. Bu ayarlar, normal dizin oluşturma ve yapay zeka zenginleştirilmiş iş yükleri için tamamen kullanılabilir.Such settings are fully available to regular indexing and AI enriched workloads. Dizin oluşturma sonrası, içerik Azure Bilişsel Arama 'da depolandığında, içeriğinizi anlamak için zengin sorgular ve filtre ifadeleri oluşturabilirsiniz.Post-indexing, when content is stored on Azure Cognitive Search, you can build rich queries and filter expressions to understand your content.

Azure depolama 'da bir bilgi deposunda iki bildirim bulunur: bir blob kapsayıcısı veya tablo depolamadaki tablolar.In Azure Storage, a knowledge store has two manifestations: a blob container, or tables in Table storage.

  • Blob kapsayıcısı, zenginleştirilmiş belgeleri tamamen yakalar ve diğer işlemlere akış yapmak istiyorsanız yararlı olur.A blob container captures enriched documents in their entirety, which is useful if you want to feed into other processes.

  • Buna karşılık tablo depolama, zenginleştirilmiş belgelerin fiziksel projeksiyonlarını kapsayabilmelidir.In contrast, Table storage can accommodate physical projections of enriched documents. Belirli kısımları dahil eden veya hariç tutkaya ait belgelerin dilimlerini veya katmanlarını oluşturabilirsiniz.You can create slices or layers of enriched documents that include or exclude specific parts. Power BI analize yönelik olarak, Azure Tablo depolamadaki tablolar, daha fazla görselleştirme ve araştırma için veri kaynağı haline gelir.For analysis in Power BI, the tables in Azure Table storage become the data source for further visualization and exploration.

İşlem hattının sonunda zenginleştirilmiş bir belge, zenginleştirme sırasında ayıklanan veya oluşturulan yeni bilgileri içeren ek alanların varlığına göre orijinal giriş sürümünden farklıdır.An enriched document at the end of the pipeline differs from its original input version by the presence of additional fields containing new information that was extracted or generated during enrichment. Bu nedenle, kullandığınız çıkış yapısını ne olursa olsun, orijinal ve oluşturulmuş içeriğin bir bileşimiyle çalışabilirsiniz.As such, you can work with a combination of original and created content, regardless of which output structure you use.

Sonraki adımlarNext steps

Farklı yollarla bilişsel hizmetler 'i birleştirme ve senaryo için mevcut bilişsel hizmet olmadığı durumlar için özel yetenekler yazma dahil olmak üzere, Azure depolama 'daki verilerden en iyi şekilde yararlanmak için, AI zenginleştirmesiyle ilgili çok daha fazla şey vardır.There’s a lot more you can do with AI enrichment to get the most out of your data in Azure Storage, including combining Cognitive Services in different ways, and authoring custom skills for cases where there’s no existing Cognitive Service for the scenario. Aşağıdaki bağlantıları izleyerek daha fazla bilgi edinebilirsiniz.You can learn more by following the links below.