Azure Bilişsel Arama'da AI zenginleştirme

Bu Azure Bilişsel Arama, AI zenginleştirmesi dizin oluşturma sırasında analiz, dönüşüm ve içerik oluşturma ek olarak yerleşik bilişsel becerileri ve özel becerileri ifade eder. Zenginleştirmeler, önceden var olmayan yeni bilgiler sağlar: görüntülerden bilgi ayıklama, yaklaşım algılama, anahtar ifade ve metinden varlıklar. Zenginleştirmeler, farklı olmayan metne de yapı ekler. Bu işlemlerin hepsi, önceden aranamaz içeriğin tam metin arama senaryolarında kullanılabilir hale gerçekleşmesiyle sonuçlanabilir. Zenginleştirilmiş belgeler çoğu durumda bilgi madenciliği gibi arama dışında senaryolar için kullanışlıdır.

Zenginleştirme, bir dizine eklenmiş bir beceri kümesi tarafından tanımlanır. Dizin oluşturan içerik ayıklanır ve ayarlanırken beceri kümesi görüntüler, bloblar ve diğer yapılandırılmamış veri kaynaklarından yeni bilgiler ve yapılar tanımlar, analiz eder ve oluşturur. Zenginleştirme işlem hattının çıkışı bir arama dizini veya bilgi deposu olur.

Zenginleştirme işlem hattı diyagramı

Beceri kümesi, Bilişsel Arama'dan gelen yerleşik becerileri içerebilir veya özel bir beceride sağlaycanız dış işlemeyi katıştırmanızı sağlar. Özel beceri örnekleri finans, bilimsel yayınlar veya tıp gibi belirli bir etki alanını hedef alan özel bir varlık modülü veya belge sınıflandırıcısı olabilir.

Yerleşik beceriler şu kategorilere ayrılır:

  • Doğal dil işleme becerileri varlık tanıma, dil algılama, anahtar ifade ayıklama, metin işleme, yaklaşım algılama (fikir madenciliği dahil)ve PII algılamayı içerir. Bu becerilerle, yapılandırılmamış metinler dizinde aranabilir ve filtrelenebilir alanlar olarak eşlenebilir.

  • Görüntü işleme becerileri Arasında Optik Karakter Tanıma (OCR) ve yüz algılama,görüntü yorumlama, görüntü tanıma (ünlü kişiler ve yer işaretleri) gibi görsel özelliklerin belirlenmesi veya görüntü yönlendirme gibi öznitelikler yer alır. Bu beceriler, görüntü içeriğinin metin gösterimlerini oluşturur ve bu da görüntü içeriğinin sorgu özelliklerini kullanarak aranabilir Azure Bilişsel Arama.

Azure Bilişsel Arama'daki yerleşik beceriler, Bilişsel Hizmetler API'si'daki önceden eğitilmiş makine öğrenmesi modellerini temel Görüntü İşleme ve Metin Analizi. İçerik işleme sırasında bu kaynaklardan yararlanan bir Bilişsel Hizmetler kaynağı iliştirebilirsiniz.

Doğal dil ve görüntü işleme, veri alımı aşamasında uygulanır ve sonuçlar veri alımı aşamasında aranabilir bir dizinde belgenin bileşiminin bir parçası Azure Bilişsel Arama. Veriler Bir Azure veri kümesi olarak kaynaklandı ve ardından ihtiyacınız olan yerleşik becerileri kullanarak dizin oluşturma işlem hattı üzerinden yollandı.

Özellik kullanılabilirliği

AI zenginleştirme, farklı Azure Bilişsel Hizmetler kullanılabilir. Bölgeye göre kullanılabilir Azure ürünleri sayfasında geçerli AI zenginleştirme kullanılabilirliğini kontrol edebilirsiniz. AI zenginleştirmesi, şu bölgeler dışında desteklenen tüm bölgelerde kullanılabilir:

  • Güneydoğu Avustralya
  • Kuzey Çin 2
  • Doğu Norveç
  • Orta Batı Almanya

Arama hizmetiniz bu bölgelerden biri içinde bulunuyorsa beceri kümeleri oluşturamaz ve kullanamaz, ancak diğer tüm arama hizmeti işlevleri kullanılabilir ve tam olarak de desteklemektedir.

AI zenginleştirmesi ne zaman kullanlır?

Ham içeriğiniz yapılandırılmamış metin, görüntü içeriği veya dil algılama ve çevirisi gereken içerikse zenginleştirmeyi göz önünde bulundurabilirsiniz. Yerleşik bilişsel beceriler aracılığıyla AI uygulamak bu içeriğin kilidini açabilir ve arama ve veri bilimi uygulamalarınıza olan değerini ve yardımcı programını artırabilirsiniz.

Ayrıca, işlem hattıyla tümleşmek istediğiniz açık kaynak, üçüncü taraf veya birinci taraf kodunuz varsa özel bir beceri eklemeyi düşünebilirsiniz. Çeşitli belge türlerinin önemli özelliklerini tanımlayan sınıflandırma modelleri bu kategoriye girer, ancak içeriğinize değer katan tüm paketler kullanılabilir.

Yerleşik beceriler için kullanım örnekleri

Yerleşik beceriler kullanılarak birleştirilmiş bir beceri kümesi, aşağıdaki uygulama senaryoları için çok uygun olacaktır:

  • Taranan belgelerde (JPEG) yazı tipi ve el yazısı metni tanıyan Optik Karakter Tanıma (OCR), belki de en sık kullanılan beceridir. OCR becerisini eklemek JPEG dosyalarından metinleri tanımlayabilir, ayıklar ve alar.

  • Çok dilli içeriğin metin çevirisi, yaygın olarak kullanılan bir diğer beceridir. Dil algılama, Metin Çevirisi'nde yerleşiktir ancak yalnızca Dil Algılama dil kodlarını istediğiniz zaman bağımsız olarak da çalıştırabilirsiniz.

  • Birleştirilmiş görüntü ve metin ile PDF'ler. PDF'lerde metin, zenginleştirme adımları olmadan dizin oluşturma sırasında ayıklanır, ancak görüntü ve doğal dil işlemenin ek olması genellikle standart dizinlemenin sağladığından daha iyi bir sonuç üretebilir.

  • Daha büyük belgede gizlenen, doğası gereği anlamı veya bağlamı olan içerik içeren yapılandırılmamış veya yarı yapılandırılmış belgeler.

    Özellikle bloblar genellikle tek bir "alan" içinde paketlenmiş büyük bir içerik gövdesi içerir. Bir dizine görüntü ve doğal dil işleme becerileri ekerek, ham içerikte var olan ancak farklı alanlar olarak ortaya çıkarılamayabilecek yeni bilgiler oluşturabilirsiniz. Yardımcı olacak kullanıma hazır bazı yerleşik bilişsel beceriler: Anahtar İfade Ayıklama tanıma ve Varlık Tanıma (kişiler, kuruluşlar ve konumlar) .

    Ayrıca, yerleşik beceriler metin bölme, birleştirme ve şekillendirme işlemleri aracılığıyla içeriği yeniden yapılandırmak için de kullanılabilir.

Özel beceriler için kullanım örnekleri

Özel beceriler, form tanıma veya özel beceri web arabiriminde sizin sağlaycınız ve sarmalamanız için bir model kullanarak özel varlık algılama gibi daha karmaşık senaryoları destekleyebilirsiniz. Özel becerilere örnek olarak Forms Recognizer,Bing Varlık Arama API tümleştirmesive özel varlık tanıma dahildir.

Zenginleştirme adımları

Zenginleştirme işlem hattı, beceri kümeleri olan dizinlerden oluşur. Beceri kümesi zenginleştirme adımlarını tanımlar ve beceri kümesi dizine sahip olur. Bir dizinleştiriciyi yapılandırarak, bir arama dizinine zenginleştirilmiş içerik veya bilgi deposu içinde veri yapılarını tanımlayan projeksiyonlar göndermeye yönelik çıkış alanı eşlemeleri gibi özellikleri indirebilirsiniz.

Dizin oluşturma sonrası, arama istekleri aracılığıyla içeriğe erişmek için dizin oluşturma tarafından desteklenen tüm sorgu Azure Bilişsel Arama.

1. Adım: Bağlantı ve belge kırılama aşaması

Dizinciler, bir dizin oluşturma veri kaynağında sağlanan bilgileri kullanarak dış kaynaklara bağlanıyor. Dizin oluşturma kaynağına bağlandığında, metin ve görüntüleri ayıklamak için "belgeleri kıracak". Görüntü içeriği, metin içeriği metin işleme için kuyruğa eklenirken görüntü işlemeyi gerçekleştirecek becerilere yönlendirebilirsiniz.

Belge kırılama aşaması

Bu adım, AI zenginleştirmeden geçen tüm ilk veya ham içerikleri bir araya toplar. Her belge için bir zenginleştirme ağacı oluşturulur. Başlangıçta ağaç yalnızca bir kök düğüm gösterimidir, ancak beceri kümesi yürütme sırasında büyür ve yapı kazanır.

2. Adım: Beceri kümesi zenginleştirme aşaması

Beceri kümesi, her belgede gerçekleştirilen atomik işlemleri tanımlar. Örneğin, PDF'den ayıklanan metinler ve görüntüler için beceri kümesi varlık tanıma, dil algılama veya anahtar ifade ayıklama uygulayabilir ve dizinde kaynakta yerel olarak kullanılabilir olan yeni alanlar üretebilir.

Zenginleştirme aşaması

beceri kümesi minimal veya yüksek oranda karmaşık olabilir ve yalnızca işleme türünü değil aynı zamanda işlem sıralarını da belirler. Çoğu beceri kümeleri yaklaşık üç-beş beceri içerir.

Beceri kümesine ek olarak dizin oluşturmanın bir parçası olarak tanımlanan çıkış alanı eşlemeleri zenginleştirme işlem hattını tam olarak belirtir. Bu parçaların hepsini bir araya çekme hakkında daha fazla bilgi için bkz. Beceri kümesi tanımlama.

dahili olarak, işlem hattı zenginleştirilmiş belgeler koleksiyonu üretir. Zenginleştirilmiş belgelerin hangi bölümlerinin arama dizininizin dizinlenebilir alanlarına eşlenmiş olması gerektiğine karar veabilirsiniz. Örneğin, anahtar ifade ayıklama ve varlık tanıma becerilerini uyguladıysanız, bu yeni alanlar zenginleştirilmiş belgenin bir parçası olur ve dizininizin alanlarına eşlenmiş olabilir. Giriş/çıkış oluşumları hakkında daha fazla bilgi edinmek için bkz. Ek açıklamalar.

3. Adım: Dizin oluşturma

Dizin oluşturma, ham ve zenginleştirilmiş içeriğin bir arama dizininde alan olarak ve aynı zamanda bilgi deposu oluşturuyorsanız projeksiyon olarak kabul edildikleri bir işlemdir. Aynı zenginleştirilmiş içerik, içeriği doğru alanlara göndermek için örtülü veya açık alan eşlemeleri kullanılarak her ikisinde de görünebilir.

Zenginleştirilmiş içerik beceri kümesi yürütme sırasında oluşturulur ve siz kaydetmedikçe geçicidir. Zenginleştirilmiş içeriğin bir arama dizininde görünmesi için dizinleştiricinin bir arama dizininde bir alana zenginleştirilmiş içerik göndererek eşleme bilgilerine sahip olması gerekir. Çıkış alanı eşlemeleri bu ilişkilendirmeleri ayarlar.

Zenginleştirilmiş çıkışı kaydetme

Dizin Azure Bilişsel Arama, oluşturduğu çıkışı kaydeder.

Aranabilir dizin, her zaman bir dizin oluşturma tarafından oluşturulan çıkışlardan birisidir. Dizinin belirtimi bir dizine sahip olan bir gereksinimdir ve bir beceri kümesi iliştirme, beceri kümesi çıktısı ve doğrudan kaynaktan eşlenen tüm alanlar, dizini doldurmak için kullanılır. Genellikle anahtar ifadeler veya yaklaşım puanları gibi belirli becerilerin çıkışları, bu amaçla oluşturulan alanlardaki dizine alınarak oluşturulur.

Bilgi deposu, bilgi madenciliği gibi aşağı akış uygulamaları için kullanılan isteğe bağlı bir çıkıştır. Bilgi deposu bir beceri kümesi içinde tanımlanır. Tanımı, zenginleştirilmiş belgelerinizin tablo veya nesne (dosyalar veya bloblar) olarak projelip projeln olmadığını belirler. Tablosal projeksiyonlar, Power BI gibi araçlarda etkileşimli analiz için çok uygun, ancak dosyalar ve bloblar genellikle veri bilimlerinde veya benzer işlemlerde kullanılır.

Son olarak, bir dizinleştirici sonraki beceri kümesi yürütmelerde olası yeniden Depolama için Azure Blob depolama alanında zenginleştirilmiş belgeleri önbelleğe kaydedebilir. Önbellek iç kullanım içindir. Önbelleğe alınan zenginleştirmeler, daha sonraki bir tarihte yeniden çalıştırarak aynı beceri kümesi tarafından kullanılabilir. Önbelleğe Alma beceri kümesi görüntü analizi veya OCR'ye sahipse ve görüntü dosyalarını yeniden işlemenin zaman ve masraflarından kaçınmak için faydalıdır.

Dizinler ve bilgi depoları birbirinden tamamen bağımsızdır. Dizin oluşturma gereksinimlerini karşılamak için bir dizin eklemeniz gerekir, ancak tek amacınız bir bilgi deposu ise, dizin doldurulduğunda dizini yoksayabilirsiniz. Ancak silmekten kaçının. Dizin oluşturma ve beceri kümesi yeniden çalıştırmak için dizine ihtiyacınız vardır.

Zenginleştirilmiş içerik kullanma

İşlem tamamlandığında zenginleştirilmiş belgelerden oluşan bir arama dizininiz olur ve bu dizinde tam metin araması Azure Bilişsel Arama. Geliştiricilerin ve kullanıcıların işlem hattı tarafından oluşturulan zenginleştirilmiş içeriğe erişmesi dizini sorgulamaktır. Dizin, Azure Bilişsel Arama için oluşturmuş olabileceğiniz diğer dizinlere benzer: Metin analizini özel çözümleyicilerle tamamlar, belirsiz arama sorguları çağırabilirsiniz, filtre ekleyebilir veya arama ilgi düzeyini ayarlamak için puanlama profilleriyle denemeler yapabilirsiniz.

Ayrıca bir bilgi depona sahip de olabilir. Bilgi deposu, analiz veya makine öğrenmesi gibi bilgi madenciliği senaryolarında tüketilebilir veriler içerir. Depolama Browser, Power BIveya Azure Depolama'a bağlanan herhangi bir uygulamayı kullanabilirsiniz.

Denetim listesi: Tipik bir iş akışı

  1. Bir projeye başlarken verilerin bir alt kümesiyle çalışmak yararlı olur. Dizin oluşturma ve beceri kümesi tasarımı, yineli bir işlemdir ve küçük bir temsili veri kümesiyle çalışıyorsanız daha hızlı yinelersiniz.

  2. Verilerinize bağlantı belirten bir veri kaynağı oluşturun.

  3. Zenginleştirme eklemek için bir beceri kümesi oluşturun.

  4. Arama dizini tanımlayan bir dizin şeması oluşturun.

  5. Yukarıdaki bileşenlerin hepsini bir araya getirmek için bir dizin oluşturma. Dizin oluşturma veya çalıştırma verileri alan, beceri kümesi çalıştıran ve dizini yükler.

  6. Sonuçları değerlendirmek ve beceri kümeleri, şema veya dizin oluşturma yapılandırmasını güncelleştirmek için kodda değişiklik yapmak için sorgular çalıştırın.

Yukarıdaki adımları tekrarlamanız için, işlem hattını yeniden oluşturmadan önce dizin bağlayıcıyı sıfırlayın veya her çalıştırmadaki nesneleri silin ve yeniden oluşturun (ücretsiz katmanı kullanıyorsanız önerilir). Ayrıca mümkün olan her yerde mevcut zenginleştirmeleri yeniden kullanmak için zenginleştirme önbelleğini etkinleştirmeniz gerekir.

Sonraki adımlar