Görüntü ve metin işleme ile yapay zeka zenginleştirmesi

Azure App Service
Azure Blob Storage
Azure AI Arama
Azure Functions

Çözüm fikirleri

Bu makale bir çözüm fikridir. İçeriği olası kullanım örnekleri, alternatif hizmetler, uygulama konuları veya fiyatlandırma yönergeleri gibi daha fazla bilgiyle genişletmemizi isterseniz GitHub geri bildirimi sağlayarak bize bildirin.

Bu makalede, etki alanına özgü verileri yakalamak için görüntü işleme, doğal dil işleme ve özel beceriler kullanarak metin ve görüntü belgelerini zenginleştiren bir çözüm sunulur. Yapay zeka zenginleştirmesi ile Azure Bilişsel Arama uygun içeriği büyük ölçekte tanımlamaya ve keşfetmeye yardımcı olabilir. Bu çözüm, özgün karmaşık, yapılandırılmamış JFK Suikast Kayıtları (JFK Dosyaları) veri kümesinden anlam ayıklamak için yapay zeka zenginleştirmesini kullanır.

Mimari

Yapılandırılmamış verileri yapılandırılmış verilere dönüştürmek için Azure Bilişsel Arama mimariyi gösteren diyagram.

Bu mimarinin bir Visio dosyasını indirin.

Veri akışı

Yukarıdaki diyagramda yapılandırılmış, dizine alınabilen veriler üretmek için yapılandırılmamış JFK Files veri kümesini Azure Bilişsel Arama beceri işlem hattı üzerinden geçirme işlemi gösterilmektedir:

  1. belgeler ve resimler gibi Azure Blob Depolama yapılandırılmamış veriler Azure Bilişsel Arama alınır.
  2. Belgeyi açma adımı, verilerden görüntü ve metin ayıklayıp içerik zenginleştirmesini izleyerek dizin oluşturma işlemini başlatır. Bu süreçte gerçekleşen zenginleştirme adımları, seçilen verilere ve becerilerin türüne bağlıdır.
  3. Görüntü İşleme ve Dil Hizmeti API'lerine dayalı yerleşik beceriler, görüntü optik karakter tanıma (OCR), görüntü analizi, metin çevirisi, varlık tanıma ve tam metin araması gibi yapay zeka zenginleştirmelerini sağlar.
  4. Özel beceriler , daha karmaşık yapay zeka modelleri veya hizmetleri gerektiren senaryoları destekler. Örnek olarak Form Tanıma, Azure Machine Learning modelleri ve Azure İşlevleri verilebilir.
  5. Zenginleştirme işleminin ardından, dizin oluşturucu çıkışları zenginleştirilmiş ve dizine alınan belgeleri içeren bir arama dizinine kaydeder. Tam metin araması ve diğer sorgu formları bu dizini kullanabilir.
  6. Zenginleştirilmiş belgeler, bilgi madenciliği veya veri bilimi gibi aşağı akış uygulamalarının kullanabildiği bir bilgi deposuna da yansıtılabilir.
  7. Sorgular, arama dizinindeki zenginleştirilmiş içeriğe erişer. Dizin özel çözümleyicileri, benzer arama sorgularını, filtreleri ve arama ilgi düzeyini ayarlamak için puanlama profilini destekler.
  8. Blob Depolama veya Azure Tablo Depolama bağlanan tüm uygulamalar bilgi deposuna erişebilir.

Bileşenler

Azure Bilişsel Arama bu çözümü sağlamak için diğer Azure bileşenleriyle birlikte çalışır.

Azure Bilişsel Arama içeriği dizine alır ve bu çözümdeki kullanıcı deneyimini destekler. Azure Bilişsel Arama içeriğe önceden oluşturulmuş bilişsel beceriler uygulayabilir ve genişletilebilirlik mekanizması belirli zenginleştirme dönüşümleri için özel beceriler ekleyebilir.

Azure Görüntü İşleme

Azure Görüntü İşleme, resimlerden metin bilgilerini ayıklamak ve tanımak için metin tanımayı kullanır. Okuma API'si en son OCR tanıma modellerini kullanır ve büyük, metin yoğunluklu belgeler ve gürültülü görüntüler için iyileştirilmiştir.

Eski OCR API'si büyük belgeler için iyileştirilmemiştir, ancak daha fazla dili destekler. OCR sonuçları tarama ve görüntü kalitesine bağlı olarak değişebilir. Geçerli çözüm fikri, hOCR biçiminde veri üretmek için OCR kullanır.

Azure Cognitive Service for Language

Dil için Azure Bilişsel Hizmet, Adlandırılmış Varlık Tanıma (NER), anahtar ifade ayıklama ve tam metin arama gibi metin analizi özelliklerini kullanarak yapılandırılmamış belgelerden metin bilgilerini ayıklar.

Azure Depolama

Azure Blob Depolama, HTTPS aracılığıyla dünyanın her yerinden erişebileceğiniz veriler için REST tabanlı nesne depolama alanıdır. Blob Depolama kullanarak verileri genel kullanıma açabilir veya uygulama verilerini özel olarak depolayabilirsiniz. Blob Depolama, metin veya grafik gibi büyük miktarda yapılandırılmamış veri için idealdir.

Azure Tablo Depolama yüksek oranda kullanılabilir, ölçeklenebilir, yapılandırılmış veya yarı yapılandırılmış NoSQL verilerini bulutta depolar.

Azure İşlevleri

Azure İşlevleri, açıkça altyapı sağlamak veya yönetmek zorunda kalmadan olayla tetiklenen küçük kod parçalarını çalıştırmanıza olanak tanıyan sunucusuz bir işlem hizmetidir. Bu çözüm, CIA Cryptonyms listesini JFK Suikast Kayıtlarına özel beceri olarak uygulamak için Azure İşlevleri bir yöntem kullanır.

Azure App Service

Bu çözüm fikri ayrıca Azure Uygulaması Hizmeti'nde zenginleştirilmiş ve dizine alınan belgelerdeki bağlantıları test etmek, göstermek, aramak ve bağlantıları keşfetmek için tek başına bir web uygulaması oluşturur.

Senaryo ayrıntıları

Büyük, yapılandırılmamış veri kümeleri, standart arama çözümlerinin ayrıştırılamayan tür yazısı ve el yazısı notlar, fotoğraflar ve diyagramlar ile diğer yapılandırılmamış verileri içerebilir. JFK Suikast Kayıtları, 1963 JFK suikastı hakkındaki CIA soruşturması hakkında 34.000 sayfadan fazla belge içeriyor.

JFK Files örnek projesi ve çevrimiçi tanıtımda belirli bir Azure Bilişsel Arama kullanım örneği gösterildi. Bu çözüm fikri, tüm senaryolar için bir çerçeve veya ölçeklenebilir mimari olarak tasarlanmamıştır, genel bir kılavuz ve örnek sağlamak için tasarlanmıştır. Kod projesi ve tanıtım, ayıklanan görüntüler için genel bir web sitesi ve genel olarak okunabilir bir depolama kapsayıcısı oluşturur, bu nedenle bu çözümü genel olmayan verilerle kullanmamalısınız.

Azure Bilişsel Arama yapay zeka zenginleştirmesi görüntülerden, bloblardan ve JFK Dosyaları gibi diğer yapılandırılmamış veri kaynaklarından aranabilir, dizine alınabilen metinleri ayıklayabilir ve geliştirebilir. Yapay zeka zenginleştirmesi, Bilişsel Hizmetler Görüntü İşleme ve Dil için Bilişsel Hizmet API'lerinden önceden eğitilmiş makine öğrenmesi beceri kümelerini kullanır. Ayrıca, CIA Cryptonyms gibi etki alanına özgü veriler için özel işleme eklemek için özel beceriler oluşturabilir ve ekleyebilirsiniz. Azure Bilişsel Arama bu bağlamı dizinleyebilir ve arayabilir.

Bu çözümdeki Azure Bilişsel Arama becerileri aşağıdaki kategorilere ayrılır:

  • Görüntü işleme. Yerleşik metin ayıklama ve görüntü analizi becerileri nesne ve yüz algılama, etiket ve başlık oluşturma ile ünlü ve yer işareti belirlemeyi içerir. Bu beceriler, Azure Bilişsel Arama sorgu özellikleri kullanılarak aranabilen resim içeriğinin metin gösterimlerini oluşturur. Belgenin kırılması, metin olmayan kaynaklardan metin içeriği ayıklama veya oluşturma işlemidir.

  • Doğal dil işleme. Varlık tanıma, dil algılama ve anahtar ifade ayıklama gibi yerleşik beceriler yapılandırılmamış metni dizindeki aranabilir ve filtrelenebilir alanlarla eşler.

  • Özel beceriler, içeriğe belirli zenginleştirme dönüşümleri uygulamak için Azure Bilişsel Arama genişletir. Özel Web API'sinin becerisi aracılığıyla özel becerinin arabirimini belirtirsiniz.

Olası kullanım örnekleri

  • Arama ve veri bilimi uygulamalarında yapılandırılmamış metin ve görüntü içeriğinin değerini ve yardımcı programını artırın.
  • Açık kaynak, üçüncü taraf veya birinci taraf kodunu dizin oluşturma işlem hatlarıyla tümleştirmek için özel becerileri kullanın.
  • Taranan JPG, PNG veya bit eşlem belgelerinin tam metin aranabilir olmasını sağlayın.
  • Birleştirilmiş görüntü ve metin içeren PDF'ler için standart PDF metin ayıklamasından daha iyi sonuçlar elde edin. Bazı taranmış ve yerel PDF biçimleri Azure Bilişsel Arama doğru ayrıştırılamayabilir.
  • Daha büyük yapılandırılmamış veya yarı yapılandırılmış belgelerde gizli olan doğal olarak anlamlı ham içerikten veya bağlamdan yeni bilgiler oluşturun.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunan tarafından yazılmıştır.

Asıl yazar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki adımlar

Bu çözüm hakkında daha fazla bilgi edinin:

Ürün belgelerini okuyun:

Öğrenme yolunu deneyin:

İlgili mimarilere ve yönergelere bakın: