Azure Bilişsel Arama kullanarak uyumluluk riski analizi

Azure AI Arama
Azure AI services
Microsoft Graph

Bu makalede, Azure Bilişsel Arama kullanarak uyumluluk riski analizi çözümü uygulamaya yönelik teknik yönergeler sağlanır. Yönergeler gerçek dünya proje deneyimlerini temel alır. Çözümün kapsamlı kapsamı ve bunu özel kullanım örneğine uyarlama gereksinimi göz önünde bulundurulduğunda, makale temel ve özel mimari ve uygulama yönlerine odaklanır. Adım adım öğreticilere uygun şekilde başvurur.

Apache®, Apache Lucene® ve alev logosu, Apache Software Foundation'ın Birleşik Devletler ve/veya diğer ülkelerdeki kayıtlı ticari markaları veya ticari markalarıdır. Bu işaretlerin kullanılması Apache Software Foundation tarafından onaylanmamaktadır.

Giriş

Finans kurumlarındaki danışmanlar ve tüccarlar her gün milyonlarca dolar değerindeki işlemleri tartışıyor, analiz ediyor ve karar alıyor. Sahte işlemler, harmanlama, şirket içi ticaret ve çalışanlar tarafından yapılan diğer kötüye kullanımlar, bu kurumlar için hem yasal sonuçlar hem de kamusal imaj açısından önemli risklerdir.

Uyumluluk ekipleri bu riskleri azaltmak için çalışır. Çalışmalarının bir parçası, anlık ileti, e-posta ve iş telefonu aramaları dahil olmak üzere birden çok kanal arasındaki iletişimleri izlemektir. İzleme genellikle iş işlemi verilerine göre çapraz denetleniyor. Amaç, genellikle gizli ve hafif olan uyumsuzluk işaretlerini bulmaktır. Bu görev, yoğun emek ve dikkat gerektiren bir görevdir ve yüksek hacimli verileri eler. Otomatik sistemler yardımcı olsa da, göz ardı edilen risklerin hacmi oldukça yüksek olabilir ve bu da özgün iletişimleri gözden geçirme gereksinimine neden olur.

Azure Bilişsel Arama, risk değerlendirmesinin kalitesini otomatikleştirmenize ve geliştirmenize yardımcı olabilir. Yerleşik yapay zeka, genişletilebilir yapay zeka ve akıllı arama özelliklerine sahiptir. Bu makalede sunulan uyumluluk riski analizi çözümü, çeşitli iletişim kanallarındaki içerikleri birleştirerek ve analiz ederek finansal tüccarların kötüye kullanma gibi riskleri nasıl tanımlayabileceğinizi gösterir. Bu yapılandırılmamış içerikte belirlenebilecek olası riskler arasında pazar manipülasyonu, şirket içi ticaret, karşılıklı fon dolandırıcılığı ve diğerleri yer alır.

Çözüm mimarisinde Azure Bilişsel Hizmetler ve Azure Bilişsel Arama kullanılır. Senaryo finans sektöründeki iletişim risklerini hedeflese de, tasarım deseni devlet ve sağlık gibi diğer sektörlere ve sektörlere aktarılır. Kuruluşlar, iş senaryolarına uygun risk değerlendirmesi modelleri geliştirerek ve tümleştirerek mimariyi uyarlayabilir. Örneğin, Wolters Kluwer demo uygulaması , avukatlara Menkul Kıymetler ve Borsa Komisyonu (SEC) dosyalarında ve yazışmalarında ilgili bilgileri hızla bulma olanağı sağlar. Siber güvenlik ve fikri mülkiyet riskleri de dahil olmak üzere finansmanla ilgili riskleri tanımlar.

Azure Bilişsel Arama, iş süreci performansını ve uyumluluk ekiplerinin üretkenliğini geliştiren yerleşik yapay zeka ve özel becerilere sahiptir. Özellikle aşağıdaki durumlar için kullanışlıdır:

  • Finansal raporlar, konuşma transkripsiyonları ve e-postalar gibi çok sayıda heterojen yapılandırılmamış belgeden içgörü elde etmeniz gerekir.
  • Yapılandırılmamış içerik için risk yönetimi yordamları tam olarak yerinde değildir.
  • Mevcut yaklaşımlar zaman ve emek açısından yoğun bir yaklaşımdır ve çok fazla yanlış alarma veya göz ardı edilen gerçek risklere neden olur.
  • Daha kapsamlı bir risk analizi için yapılandırılmış veriler de dahil olmak üzere çeşitli iletişim kanallarını ve veri kaynaklarını tümleştirmeniz gerekir.
  • Yapılandırılmamış metinlerdeki risk sinyallerini tanımlamak için makine öğrenmesi modellerini eğitmek için veri ve etki alanı bilgisi sağlanır. Alternatif olarak, mevcut modeller tümleştirilebilir.
  • Mimarinin çözümü geliştirmek için konuşmalar ve haberler gibi yeni kullanılabilir yapılandırılmamış verileri sürekli olarak alıp işleyebiliyor olması gerekir.
  • Uyumluluk analistleri, risklerin tanımlanması ve ayrıntılı analizi için verimli bir araci gerektirir. Analistlerin süreci denetleyebilmesi ve modelleri geliştirmek için olası yanlış tahminlere bayrak ekleyebilmesi için aracın döngüdeki insan aracı olması gerekir.

Azure Bilişsel Arama, uygun içeriği büyük ölçekte tanımlamanıza ve keşfetmenize yardımcı olmak için her türlü bilgiyi zenginleştiren yerleşik yapay zeka özelliklerine sahip bir bulut arama hizmetidir. Görsel ve dil için bilişsel becerileri kullanabilir veya her tür içerikten içgörüleri ortaya çıkarmak için özel makine öğrenmesi modelleri kullanabilirsiniz. Azure Bilişsel Arama ayrıca kullanıcı amacını sınıflandırmak ve en uygun arama sonuçlarını bağlamsal olarak sıralamak için gelişmiş makine öğrenmesi tekniklerini kullanan anlamsal arama özellikleri de sunar.

Aşağıdaki diyagramda, veri alımı ve dizin oluşturmadan sonuçların kullanıcının kullanımına sunulmasına kadar Azure Bilişsel Arama nasıl çalıştığına ilişkin üst düzey bir görünüm gösterilmektedir.

Diagram of high-level view of how Azure Cognitive Search works.

Bu mimarinin PowerPoint dosyasını indirin.

Bu makalede, risk analizi kullanım örneği ve daha önce bahsedilen Wolters Kluwer örneği gibi diğer finansal hizmetler senaryolarına yönelik çözümle ilgili ayrıntılar sağlanır. Başvuruda bulunılan nasıl yapılır belgeleri ve bir başvuru mimarisi ile teknik yürütme adımları sağlar. Kurumsal ve teknik açıdan en iyi yöntemleri içerir. Tasarım düzeni, kendi verilerinizi getirdiğinizi ve iş bağlamınız ve gereksinimleriniz için uygun olan kendi risk analizi modellerinizi geliştirdiğinizi varsayar.

Bahşiş

Azure Bilişsel Arama giriş için bu kaynakları denetleyin ve uygulamada deneyimleyin:

Çözüme genel bakış

Aşağıdaki diyagram, risk analizi çözümünün üst düzey bir görünümünü sağlar.

Diagram of a high-level view of the risk analysis solution.

Bu mimarinin PowerPoint dosyasını indirin.

Gerçek riskli iletişimleri tanımlamak için, heterojen iletişim kanallarından gelen içerik Bilişsel Hizmetler'den çeşitli makine öğrenmesi modelleri tarafından ayıklanır ve zenginleştirilir. Daha sonra, pazar işleme işaretlerini ve kişiler arasındaki iletişimlerde ve etkileşimlerde görünen diğer riskleri tanımlamak için özel etki alanına özgü modeller uygulanır. Tüm veriler birleştirilmiş bir Azure Bilişsel Arama çözümünde toplanır. Çözüm, risk belirleme ve analiz özelliklerine sahip kullanıcı dostu bir uygulamadan oluşur. Uygulama verileri bir arama dizininde ve daha uzun süreli depolamaya ihtiyacınız varsa bilgi deposunda depolanır.

Aşağıdaki çizim, çözüm mimarisine kavramsal bir genel bakış sağlar:

Diagram of the conceptual overview of the solution architecture.

Bu mimarinin PowerPoint dosyasını indirin.

E-posta, sohbetler ve telefon gibi her iletişim kanalı, olası riskleri algılamak için yalıtılmış olarak kullanılabilse de, kanalları birleştirerek ve içeriği pazar haberleri gibi tamamlayıcı bilgilerle artırarak daha iyi içgörüler elde edilir.

Risk analizi çözümü, kurumsal iletişim sistemlerini veri alımı için tümleştirmek için çeşitli arabirimler kullanır:

  • Blob Depolama ekler, telefon aramalarının veya sohbetlerin transkriptleri ve haber belgeleri gibi e-posta içeriği gibi belge biçimindeki veriler için genel bir kaynak olarak kullanılır.
  • Microsoft Exchange Online ve Microsoft Teams gibi Office 365 iletişim hizmetleri, e-posta, sohbetler ve diğer içeriklerin toplu alımı için Microsoft Graph Veri Bağlantısı kullanılarak tümleştirilebilir. Microsoft 365'te SharePoint için Azure Bilişsel Arama arabirimi de mevcuttur.
  • Telefon aramaları gibi sesli iletişimler, Bilişsel Hizmetler'in Konuşmayı Metne Dönüştürme hizmeti kullanılarak dökümünü alır. Sonuçta elde edilen transkripsiyonlar ve meta veriler daha sonra Blob Depolama aracılığıyla Azure Bilişsel Arama tarafından alınıyor.

Bu örnekler, sık kullanılan kurumsal iletişim kanallarını kapsar. Ancak, ek kanalların tümleştirilmesi de mümkündür ve benzer alım desenlerini kullanabilir.

Birleştirmeden sonra ham veriler yapay zeka becerileriyle zenginleştirilerek yapıyı algılar ve daha önce arşivlenemeyen içerik türlerinden metin tabanlı içerik oluşturur. Örneğin:

  • PowerPoint dosyalarındaki veya PDF'lerdeki finansal raporlar, değişiklikleri önlemek için genellikle makine tarafından okunabilir metin yerine eklenmiş görüntüler içerir. Bu tür içerikleri işlemek için tüm görüntüler, OCR bilişsel becerisi kullanılarak optik karakter tanıma (OCR) tarafından analiz edilir.
  • Çeşitli dillerdeki içerik, Metin Çevirisi bilişsel becerisi kullanılarak İngilizceye veya başka bir dile çevrilir.
  • Kişi ve kuruluşların adları gibi önemli bilgiler otomatik olarak ayıklanır ve Varlık Tanıma bilişsel becerisi kullanılarak güçlü arama sorguları için kullanılabilir. Örneğin, arama, James Doe ile Mary Silva arasında belirli bir zaman aralığında belirli bir şirketi tartışan tüm iletişimleri bulabilir.
  • Özel modeller, iletişimde insider ticareti gibi risk kanıtlarını tanımlamak için kullanılır. Etki alanına özgü bu modeller anahtar sözcükleri, konuşmaları veya tüm paragrafları temel alabilir. Gelişmiş doğal dil işleme (NLP) teknolojilerini kullanırlar. Özel modeller, mevcut kullanım örneği için etki alanına özgü veriler kullanılarak eğitilir.

Azure Bilişsel Arama yapay zeka zenginleştirmeleri ve özel becerileri uygulandıktan sonra içerik, zengin arama ve bilgi madenciliği senaryolarını desteklemek için bir arama dizininde birleştirilir. Uyumluluk analistleri ve diğer kullanıcılar, olası risk iletişimlerini belirlemek ve daha fazla analiz için detaya gitme aramaları gerçekleştirmek için ön uç uygulamasını kullanır. Risk yönetimi dinamik bir süreçtir. Modeller üretimde sürekli geliştirilir ve yeni risk türlerine yönelik modeller eklenir. Bu nedenle çözümün modüler olması gerekir. Yeni risk türleri, model kümesi genişletildikçe kullanıcı arabiriminde otomatik olarak işaretlenir.

Ön uç uygulaması, içeriği incelemek için akıllı ve anlamsal arama sorgularını kullanır. İçerik, uyumluluk saklama veya diğer sistemlerle tümleştirme için bir bilgi deposuna da taşınabilir.

Çözümün yapı taşları aşağıdaki bölümlerde daha ayrıntılı olarak açıklanmıştır.

Risk analizi çözümü uygulamak, çeşitli etki alanlarından önemli paydaşların katılımını gerektiren çok disiplinli bir alıştırmadır. Deneyimlerimize dayanarak, çözümün başarılı bir şekilde geliştirilmesini ve kurumsal olarak benimsenmesini sağlamak için aşağıdaki rollerin dahil edilmesini öneririz.

Diagram that shows the roles needed for a successful deployment of the solution.

Veri Alımı

Bu bölümde heterojen içeriğin tek bir veri kaynağında nasıl birleştirilip bu kaynaktan türetilen ilk arama varlıkları koleksiyonunun nasıl ayarlanacağı açıklanmaktadır.

bir Azure Bilişsel Arama çözümünün geliştirilmesi ve uygulanması genellikle artımlı bir süreçtir. Veri kaynaklarının, dönüşümlerin ve artırmaların eklenmesi, temel yapılandırmaların üzerine art arda yapılan yinelemelerde gerçekleştirilir.

Azure Bilişsel Arama çözümünün ilk adımı, Azure portalında bir hizmet örneği oluşturmaktır. Arama hizmetinin kendisinin yanı sıra, arama dizini, dizin oluşturucu, veri kaynağı ve beceri kümesi de dahil olmak üzere çeşitli arama varlıklarına ihtiyacınız vardır. Azure portalında bulunan Azure Bilişsel Arama veri içeri aktarma sihirbazını kullanarak çok az çabayla temel yapılandırma oluşturabilirsiniz. Burada gösterilen bu sihirbaz, kullanıcıya dış veri kaynağından veri kullanan basit bir arama dizini oluşturma ve yüklemenin temel adımlarını gösterir.

Screenshot of the import data wizard.

Verileri içeri aktarma sihirbazı tarafından arama dizini oluşturma işleminin dört adımı vardır:

  1. Verilere Bağlan: Var olan Blob Depolama Bağlan, birkaç tıklamayla zahmetsizce yapılabilir. Kimlik doğrulaması için bir bağlantı dizesi kullanılır. Yerel olarak desteklenen diğer veri kaynakları arasında Azure SQL Veritabanı, Azure Cosmos DB gibi çeşitli Azure Hizmetleri ve SharePoint Online gibi hizmetler bulunur. Bu çözümde Blob Depolama, heterojen içerik türlerini birleştirmek için kullanılır.
  2. Bilişsel becerilerin eklenmesi: Bu isteğe bağlı adımda, yerleşik yapay zeka becerileri dizin oluşturma işlemine eklenir. Bunlar, veri kaynağından okunan içeriği zenginleştirmek için uygulanır. Örneğin, bu adım kişi ve kuruluşların adlarını ve konumlarını ayıklayabilir.
  3. Hedef dizini özelleştirme: Bu adımda geliştirici, dizin için alan varlıklarını yapılandırıyor. Varsayılan dizin sağlanır, ancak alanlar eklenebilir, silinebilir veya yeniden adlandırılabilir. Örnek alanlar şunlardır: belge başlığı, açıklama, URL, yazar, konum, şirket ve hisse senedi değerleyicisi ve bunların her birinde mümkün olan işlem türleri.
  4. Dizin oluşturucu oluşturma: Son adım, arama dizininin içeriğini güncelleştirmek için düzenli olarak çalışan bileşen olan dizin oluşturucuyu yapılandırıyor. Anahtar parametre, dizin oluşturucunun ne sıklıkta çalışması gerektiğidir.

Yapılandırmalar onaylandığında veri kaynağı, beceri kümesi, dizin oluşturucu ve dizin oluşturulur. Bu bileşenlerin her biri için bir JSON tanımı oluşturulur. JSON tanımları gelişmiş özelleştirme sağlar ve hizmetleri bir REST API aracılığıyla program aracılığıyla oluşturmak için kullanılabilir. Bunun avantajı, sonraki tüm geliştirme yinelemelerinde varlıkların tutarlı ve programlı bir şekilde oluşturulmasıdır. Bu nedenle tüm varlıkların yapılandırmasını göstermek için JSON tanımlarını kullanırız. Arama varlıklarının otomatik olarak oluşturulması bölümünde, tüm varlıkları program aracılığıyla oluşturmak için bu tanımların nasıl kullanılacağına ilişkin ayrıntılı açıklamalar sağlanır.

Yapılandırmada Blob Depolama varsayılan veri kaynağı olarak seçilir. İletişimler birden çok kanaldan veya kaynaktan kaynaklanabilir olsa da, bu çözüm deseni için genel bir yaklaşım Blob Depolama var olan ve metin ve/veya görüntü içeren tüm iletişimleri kullanır. Aşağıdaki adım, Blob Depolama için bir veri kaynağı JSON tanımının yapılandırmasını genişletecektir.

Bu bölümde, Office 365 iletişimlerinin Blob Depolama'a nasıl alındığı ve Konuşmayı Metne Dönüştürme hizmetini kullanarak sesli çağrıların nasıl dökümünü alındığı hakkında bilgi vermek için bazı desenlere başvurulur.

Blob Depolama

Aşağıdaki JSON tanımı, Blob Depolama Azure Bilişsel Arama için veri kaynağı olarak yapılandırmak için gereken yapıyı ve bilgileri gösterir:

{
  "name": "email-ds",
  "description": "Datasource for emails.",
  "type": "azureblob",
  "subtype": null,
  "credentials": {
    "connectionString": "DefaultEndpointsProtocol=https;AccountName=..."
  },
  "container": {
    "name": "communications",
    "query": "written_comms/emails"
  }
}

Aşağıdaki alanlar gereklidir

  • Ad: Veri kaynağına atanan ad.
  • Tür: Veri kaynağını Blob Depolama olarak tanımlar.
  • Kimlik bilgileri: Blob Depolama için bağlantı dizesi.
  • Kapsayıcı: Blobların depolandığı kapsayıcının adı. Kapsayıcı içindeki bir dizin belirtilebilir, böylece aynı kapsayıcı içinde birden çok veri kaynağı oluşturulabilir.

Varsayılan olarak, Blob Depolama veri kaynağı çok çeşitli belge biçimlerini destekler. Örneğin, ses transkripsiyonları genellikle JSON dosyalarında depolanır, e-postalar genellikle MSG veya EML dosyalarıdır, haberler veya ek iletişim malzemeleri genellikle PDF,DOC/DOCX/DOCM gibi Word biçimleri veya PPT/PPTX/PPTM gibi PowerPoint biçimleri veya HTML web sayfalarıdır.

Aynı Blob Depolama iletişimler için birden çok veri kaynağı ayarlamak için aşağıdaki tekniklerden birini kullanabilirsiniz:

  • Her veri kaynağına kendi kapsayıcısını verin.
  • Tüm veri kaynakları için aynı kapsayıcıyı kullanın, ancak her veri kaynağına bu kapsayıcıda kendi dizinini verin.

Microsoft Graph Veri Bağlantısı

Office 365 müşterileri için Microsoft Graph Veri Bağlantısı, Microsoft Graph'tan azure Depolama'a Azure Bilişsel Arama çözümünün yukarı akışında seçilen verileri ayıklamak için kullanılabilir. Microsoft Graph'ta depolanan veriler e-postalar, toplantılar, sohbetler, SharePoint belgeleri, kişiler ve görevler gibi verileri içerir.

Dekont

Bu mekanizmanın kullanımı bir veri onayı işlemine tabidir.

Diagram of Microsoft Graph Data Connect.

Bu mimarinin PowerPoint dosyasını indirin.

Diyagramda Microsoft Graph'ten veri akışı gösterilmektedir. Bu işlem, Microsoft Graph'ten veri ayıklamak için Azure Data Factory özelliklerine dayanır. Onay ve idare modeli de dahil olmak üzere ayrıntılı güvenlik denetimi vardır. Data Factory işlem hattı, e-posta iletileri ve ekip sohbetleri gibi ayıklanması gereken veri türleriyle ve kullanıcı grubu ve tarih aralığı gibi bir kapsamla yapılandırılır. Arama, yapılandırılabilir aralıklarla tanımlanmış bir zamanlamaya göre yürütülür ve ayıklanan verileri Azure Depolama'a bırakacak şekilde yapılandırılır. Buradan veriler bir dizin oluşturucu tarafından Azure Bilişsel Arama alınır.

Bahşiş

Aşağıdaki makaleler, daha sonra Azure Bilişsel Arama almak için data Microsoft Graph Veri Bağlantısı'dan Data Factory aracılığıyla Azure Depolama'a veri ayıklamayı ayarlamaya yönelik adım adım yönergeleri içerir:

Konuşmayı metne dönüştürme başvuru mimarisi

Telefon konuşmaları, herhangi bir finansal hizmet kuruluşunda temel bir çalışma aracıdır. İlgili ses dosyalarına erişim varsa bunlar bir risk analizi çözümüne dahil edilebilir. Bu bölüm bu durumu kapsar.

Azure Bilişsel Arama belgenin kırılması, dizin oluşturucu tarafından veri kaynağından metin ve görüntü ayıklamak için yürütülen bir dizi işleme adımıdır. Ses dosyalarında, metin tabanlı işleme için kullanılabilmeleri için bu ses iletişimlerinin transkripsiyonlarını ayıklamanın bir yolunu bulmalıyız.

Aşağıdaki diyagramda ses alımı ve konuşmayı metne dönüştürme işlem hattı gösterilmektedir. İşlem hattı, ses dosyalarının toplu işlemlerini gerçekleştirir ve transkripsiyon dosyalarını Azure Bilişsel Arama çözümünün yukarı akışı olan Blob Depolama depolar.

Diagram of a speech-to-text pipeline.

Bu mimarinin PowerPoint dosyasını indirin.

Bu başvuru mimarisinde, ses dosyaları bir istemci uygulaması aracılığıyla Blob Depolama yüklenir. Bu işlem sırasında uygulama, Microsoft Entra Id kullanarak kimlik doğrulaması yapar ve Blob Depolama için belirteç almak üzere REST API'yi çağırır. REST API'ye güvenli erişim Azure API Management tarafından sağlanır ve Azure Key Vault, belirteçleri oluşturmak için gereken gizli dizilerin yanı sıra hesap kimlik bilgilerinin de güvenli bir şekilde depolanmasını sağlar.

Dosyalar karşıya yüklendikten sonra, bir Azure işlevini çağırmak için bir Azure Event Grid tetikleyicisi gönderilir. İşlev daha sonra Bilişsel Hizmetler Konuşmayı Metne Dönüştürme API'sini kullanarak ses dosyasını işler. Daha sonra, döküme alınan JSON belgesi, Azure Bilişsel Arama tarafından veri kaynağı olarak alınabilen ayrı bir blob kapsayıcısında depolanır.

Bahşiş

Konuşma transkripsiyonunu tümleştirme hakkında ayrıntılı bilgi için aşağıdaki makaleye bakın:

Arama çözümü

Açıklandığı gibi, e-postalar, transkripsiyonlar ve haberler gibi birden çok veri kaynağı oluşturulur ve blob Depolama depolanır. Daha sonra her veri kaynağı kendi yöntemiyle dönüştürülür ve zenginleşir. Sonuçta elde edilen tüm çıkış aynı dizine eşlenir ve tüm kaynak belge türlerindeki veriler bir araya getirilir.

Aşağıdaki diyagramda bu yaklaşım gösterilmektedir. Kullanılabilir veri kaynaklarının her biri için özel bir dizin oluşturucu yapılandırılır ve tüm sonuçlar tek bir arama dizinini besler.

Diagram that shows how indexers transform data for consolidating.

Aşağıdaki bölümlerde dizin oluşturma altyapıları ve aranabilir dizinler incelenir. Bir dizin oluşturucu yapılandırmayı ve aranabilir bir çözüm uygulamak için JSON tanımlarını dizine eklemeyi gösterir.

Dizin Oluşturucular

Dizin oluşturucu, belge içeriğinin ayıklanması ve zenginleştirilmesini düzenler. Dizin oluşturucu tanımı, alınacak veri kaynağı, alanların nasıl eşlendiği ve verilerin nasıl dönüştürülüp zenginleştirileceğiyle ilgili ayrıntıları içerir.

Eşleme, dönüştürme ve zenginleştirme veri türüne göre değiştiğinden, her veri kaynağı için bir dizin oluşturucu olmalıdır. Örneğin, e-postaları dizine almak için görüntüleri ve ekleri işlemek için OCR becerileri gerekebilir, ancak transkripsiyonlar yalnızca dil tabanlı becerilere ihtiyaç duyar.

Dizin oluşturma işleminin adımları şunlardır:

  • Belge çatlama: Azure Bilişsel Arama açılır ve belgelerden ilgili içeriği ayıklar. Ayıklanan dizine eklenebilir içerik, veri kaynağı ve dosya biçimlerinin bir işlevidir. Örneğin, Blob Depolama'de PDF veya Microsoft 365 dosyası gibi bir dosya için dizin oluşturucu dosyayı açar ve metin, görüntü ve meta verileri ayıklar.
  • Alan eşlemesi: Kaynaktan ayıklanan alanların adları, arama dizinindeki hedef alanlarla eşlenir.
  • Beceri kümesi yürütme: Bu adımda, daha sonraki bir bölümde açıklandığı gibi yerleşik veya özel yapay zeka işleme gerçekleştirilir.
  • Çıktı alanı eşlemesi: Dönüştürülen veya zenginleştirilmiş alanların adları bir dizindeki hedef alanlarla eşlenir.

Aşağıdaki kod parçacığı, e-posta dizin oluşturucu JSON tanımının bir kesimini gösterir. Bu tanım, adımlarda ayrıntılı olarak açıklanan bilgileri kullanır ve dizin oluşturma altyapısına ayrıntılı bir yönerge kümesi sağlar.

{
  "name": "email-indexer",
  "description": "",
  "dataSourceName": "email-ds",
  "skillsetName": "email-skillset",
  "targetIndexName": "combined-index",
  "disabled": null,
  "schedule": {
    "interval": "P1D",
    "startTime": "2021-10-17T22:00:00Z"
  },
  "parameters": {
    "batchSize": null,
    "mixabilities": 50,
    "maxFailedItemsPerBatch": 0,
    "base64EncodeKeys": null,
    "configuration": {
      "imageAction": "generateNormalizedImages",
      "dataToExtract": "contentAndMetadata",
      "parsingMode": "default"
    }
  },
  "fieldMappings": [
    {
      "sourceFieldName": "metadata_storage_path",
      "targetFieldName": "metadata_storage_path",
      "mappingFunction": {
        "name": "base64Encode",
        "parameters": null
      }
    }
  ],
  "outputFieldMappings": [
    {
      "sourceFieldName": "/document/merged_content/people",
      "targetFieldName": "people"
    },
    {
      "sourceFieldName": "/document/merged_content/organizations",
      "targetFieldName": "organizations"
    },

Bu örnekte, dizin oluşturucu benzersiz ad e-posta dizin oluşturucu tarafından tanımlanır. Bu dizin oluşturucu email-ds adlı bir veri kaynağına başvurur ve yapay zeka zenginleştirmeleri e-posta-beceri kümesi adlı beceri kümesi tarafından tanımlanır. Dizin oluşturma işleminin çıkışları combined-index adlı dizinde depolanır. Ek ayrıntılar arasında günlük olarak ayarlanmış bir zamanlama, en fazla 50 başarısız öğe ve normalleştirilmiş görüntüler oluşturmak ve içerik ile meta verileri ayıklamak için bir yapılandırma yer alır.

Alan eşleme bölümünde, metadata_storage_path alanı benzersiz bir belge anahtarı olarak hizmet vermek için base64encoder kullanılarak kodlanır. Çıkış alanı eşleme yapılandırmasında (yalnızca kısmen görüntülenir), zenginleştirme işleminin çıkışları dizin şemasına eşlenir.

Yeni bir veri kaynağı (örneğin transkripsiyonlar) için yeni bir dizin oluşturucu oluşturulursa, JSON tanımının büyük bölümü veri kaynağı ve beceri kümesi seçimiyle uyumlu olacak şekilde yapılandırılır. Ancak, hedef dizin birleşik dizin olmalıdır (tüm alan eşlemelerinin uyumlu olması koşuluyla). Bu, dizinin birden çok veri kaynağından sonuçları birleştirmesini sağlayan tekniktir.

Dizinler ve diğer yapılar

Dizin oluşturma işlemi tamamlandıktan sonra, ayıklanan ve genişletilmiş belgeler aranabilir bir dizinde ve isteğe bağlı olarak bilgi depolarında kalıcı hale gelir.

  • Aranabilir dizin: Aranabilir dizin, her zaman bir dizin oluşturma işleminin parçası olarak oluşturulan ve bazen arama kataloğu olarak da adlandırılan gerekli çıkışa karşılık gelir. Dizin oluşturmak için dizin tanımı gerekir. Tüm alanlar için yapılandırmalar (tür, aranabilir, filtrelenebilir, sıralanabilir, modellenebilir ve alınabilir gibi) içerir. Bu dizin alanı adlarının dizin oluşturucu alanı ve çıkış alanı eşlemeleriyle uyumlu olması gerekir.

    Aynı dizine birden çok dizin oluşturucu atanabilir, böylece dizin e-postalar veya transkripsiyonlar gibi farklı veri kümelerinden gelen iletişimleri birleştirir. Daha sonra bir dizin, tam metin araması veya anlamsal arama kullanılarak sorgulanabilir.

    Dizin oluşturuculara benzer şekilde, dizinler bir dizin JSON tanımı kullanılarak yapılandırılabilir. Aşağıdaki kod parçacığı birleşik dizin JSON tanımının bir kesimine karşılık gelir:

    {
    "name": "combined-index",
    "fields": [
      {
        "name": "metadata_storage_path",
        "type": "Edm.String",
        "facetable": false,
        "filterable": false,
        "key": true,
        "retrievable": true,
        "searchable": false,
        "sortable": false,
        "analyzer": null,
        "indexAnalyzer": null,
        "searchAnalyzer": null,
        "synonymMaps": [],
        "fields": []
      },
      {
        "name": "people",
        "type": "Collection(Edm.String)",
        "facetable": true,
        "filterable": true,
        "retrievable": true,
        "searchable": true,
        "analyzer": "standard.lucene",
        "indexAnalyzer": null,
        "searchAnalyzer": null,
        "synonymMaps": [],
        "fields": []
      },
    

    Bu örnekte dizin, combined-index benzersiz adıyla tanımlanır. Dizin tanımı tüm dizin oluşturuculardan, veri kaynaklarından veya beceri kümelerinden bağımsızdır. Alanlar dizinin şemasını tanımlar ve yapılandırma sırasında bir kullanıcı her alanın adını ve türünü, ayrıca modellenebilir, filtrelenebilir gibi bir özellik kümesini yapılandırabilir.

    Bu kod parçacığında iki alan bulunur. Metadata_storage_path, belge anahtarı olarak kullanılan alınabilir bir dizedir. Öte yandan, kişiler alanı modellenebilir, filtrelenebilir, alınabilir ve aranabilir dizelerden oluşan bir koleksiyondur ve tam metin sorgulaması bir standard.lucene çözümleyicisi kullanılarak işlenir.

  • Bilgi deposu: Bilgi deposu, bilgi madenciliği gibi arama dışı senaryolarda bağımsız analiz ve aşağı akış işleme için kullanılacak isteğe bağlı bir çıkış olabilir. Bilgi deposu uygulaması, zenginleştirilmiş belgenin veya belirli alanların tablo veya dosya olarak yansıtılacak şekilde yapılandırılabildiği bir beceri kümesi içinde tanımlanır.

    Aşağıdaki çizimde bir bilgi deposunun uygulaması gösterilmektedir:

    Diagram that illustrates how to implement a knowledge store.

Bu mimarinin PowerPoint dosyasını indirin.

Azure Bilişsel Arama bilgi deposuyla veriler aşağıdaki seçenekler kullanılarak kalıcı hale gelebilir (projeksiyonlar olarak adlandırılır):

  • Dosya projeksiyonları, içeriğin (örneğin, eklenmiş görüntüler) dosya olarak ayıkılabilmesini sağlar. Buna örnek olarak, görüntü dosyası biçimlerinde dışarı aktarılan finansal raporlardan diyagramlar veya grafikler verilebilir.
  • Tablo projeksiyonları tablosal raporlama yapılarını destekler (örneğin, analiz kullanım örnekleri için). Bunlar, her belge için risk puanları gibi toplu bilgileri depolamak için kullanılabilir.
  • Nesne projeksiyonları, blob Depolama içeriği JSON nesneleri olarak ayıklar. Bunlar, uyumluluk nedeniyle verilerin ayrıntılı olarak saklanması gerekiyorsa risk analizi çözümü için kullanılabilir. Risk puanları bu yaklaşım kullanılarak arşivlenebilir.

Arama verilerinin yapısı sorgular için iyileştirildiğinden, genellikle bilgi deposuna dışarı aktarma gibi diğer amaçlar için iyileştirilmemiştir. Projeksiyonları uygulamadan önce verileri bekletme gereksinimlerinize uyacak şekilde yeniden yapılandırmak için Şekillendirici Becerisi'ni kullanabilirsiniz.

Bir bilgi deposunda, kalıcı içerik Azure Depolama'da tablo veya blob depolamada depolanır.

Bilgi deposundaki verileri kullanmak için çeşitli seçenekler vardır. Azure Machine Learning, makine öğrenmesi modelleri oluşturmaya yönelik içeriğe erişebilir. Power BI verileri analiz edebilir ve görseller oluşturabilir.

Finansal kuruluşların uzun süreli uyumluluk saklama için mevcut ilkeleri ve sistemleri vardır. Bu nedenle Azure Depolama bu kullanım örneği için ideal hedef çözüm olmayabilir. Veriler bilgi deposuna kaydedildikten sonra Data Factory bunları veritabanları gibi diğer sistemlere aktarabilir.

Sorgu altyapısı

Dizin oluşturulduktan sonra Azure Bilişsel Arama kullanarak tam metin ve anlamsal aramalar kullanarak bunu sorgulayabilirsiniz.

  • Tam metin araması Apache Lucene sorgu altyapısı üzerinde oluşturulur ve dizinin tüm aranabilir alanlarında bir arama parametresine geçirilen terimleri veya tümcecikleri kabul eder. Eşleşen terimler bulunduğunda, sorgu altyapısı belgeleri ilgi sırasına göre sıralar ve en iyi sonuçları döndürür. Belge derecelendirmesi puanlama profilleri aracılığıyla özelleştirilebilir ve sonuçlar dizin sıralanabilir alanları kullanılarak sıralanabilir.
  • Anlamsal arama , anlamsal ilgi ve dil anlama özelliklerini kullanarak arama sonuçlarının kalitesini geliştiren bir dizi güçlü özellik sağlar. Anlamsal arama etkinleştirildiğinde arama özelliğini aşağıdaki yollarla genişletir:
    • Anlamsal yeniden sıralama , mevcut sonuçlara göre yeni bir ilgi puanı hesaplamak için sorgunun bağlamını veya anlamsal anlamını kullanır.
    • Anlamsal vurgular , bir belgedeki içeriği en iyi özetleyen tümceleri ve tümcecikleri ayıklar.

Kullanıcı arabirimi bölümü, anlamsal aramanın gücünün bir örneğini içerir. Anlamsal arama genel önizleme aşamasındadır. Özellikleri hakkında daha fazla bilgiyi belgelerde bulabilirsiniz.

Arama varlıklarının otomatik olarak oluşturulması

Arama çözümü geliştirmek yinelemeli bir işlemdir. veri kaynağı, dizin, dizin oluşturucu ve beceri kümesi gibi arama varlıklarının Azure Bilişsel Arama altyapısını ve ilk sürümünü dağıttıktan sonra çözümünüzü sürekli olarak geliştirirsiniz (örneğin, yapay zeka becerileri ekleyerek ve yapılandırarak).

Tutarlılık ve hızlı yinelemeler sağlamak için Azure Bilişsel Arama varlıkları oluşturma işlemini otomatikleştirmenizi öneririz.

Çözümümüz için, bu çizimde gösterildiği gibi on varlığı otomatik bir şekilde dağıtmak için Azure Bilişsel Arama REST API'sini kullanırız:

Diagram that shows the use of the REST API to automate the deployment of assets.

Çözümümüz e-postalar, transkripsiyonlar ve haber belgeleri için farklı işleme ve yapay zeka zenginleştirmeleri gerektirdiği için farklı veri kaynakları, dizin oluşturucular ve beceri kümeleri oluştururuz. Ancak risk analizi çözümünün kullanımını basitleştirmek için tüm kanallar için tek bir dizin kullanmaya karar verdik.

On öğenin her biri, yapılandırmasını belirtmek için ilişkili bir JSON tanım dosyasına sahiptir. Ayarlar hakkında açıklamalar için bu kılavuzdaki örnek kod kutularına bakın.

JSON belirtimleri, build-search-config.py betiği tarafından gösterilen sırayla yapılan API istekleri aracılığıyla Azure Bilişsel Arama gönderilir. Aşağıdaki örnekte email-skillset.json dosyasında belirtilen e-posta beceri kümesinin nasıl oluşturulacağı gösterilmektedir:

url = f"https://{search_service}.search.windows.net/skillsets?api-version=2020-06-30-Preview"
headers = {'Content-type': 'application/json', 'api-key': cog_search_admin_key}

r = requests.post(url, data=open('email-skillset.json', 'rb'), headers=headers)

print(r)
  • search_service, Azure Bilişsel Arama kaynağının adıdır.
  • cog_search_admin_key yönetici anahtarıdır. Sorgu anahtarı kullanmak yönetim işlemleri için yeterli değildir.

Tüm yapılandırma istekleri gerçekleştirildikten ve dizin yüklendikten sonra, bir REST sorgusu arama çözümünün düzgün yanıt verip vermediğini belirler. Tüm varlıkların oluşturulması ve dizin oluşturucuların ilk çalıştırmalarını tamamlaması için bir gecikme olduğunu unutmayın. İlk kez sorgulamadan önce birkaç dakika beklemeniz gerekebilir.

Azure Bilişsel Arama REST API'sini kullanarak Blob Depolama içeriğini dizine ekleme yapılandırmasını program aracılığıyla oluşturma hakkında bilgi için bkz. Öğretici: Azure bloblarından aranabilir içerik oluşturmak için REST ve AI kullanma.

Yapay zeka zenginleştirmeleri

Önceki bölümlerde risk analizi çözümünün temelini oluşturacağız. Şimdi ham içerikten gelen bilgilerin somut iş içgörülerine işlenmesine odaklanmanın zamanı geldi.

İçeriği aranabilir hale getirmek için iletişim içeriği, risk algılama için yerleşik becerileri ve özel modelleri kullanan yapay zeka zenginleştirmeleri işlem hattından geçirilir:

Diagram that shows an AI enrichment pipeline.

İlk olarak, risk analizi çözümü için kullandığımız 1 ile 4 arası örnek becerilere dayanarak yerleşik becerilerin nasıl kullanılacağına bakacağız. Ardından, risk modellerini tümleştirmek için özel beceri eklemeyi görüyoruz (5. adım). Son olarak, beceri işlem hattını gözden geçirmeyi ve hatalarını ayıklamayı görüyoruz.

Aşağıdaki bölümlerde kavramsal bir giriş sağlanır. Uygulamalı deneyim için bkz . Microsoft Learn adım adım kılavuzu.

Yerleşik yapay zeka zenginleştirme becerileri

Uygulanan yapay zeka zenginleştirmelerinin işlem hattı, Azure Bilişsel Arama beceri kümesi olarak adlandırılır. Risk analizi çözümünde aşağıdaki yerleşik beceriler kullanılır:

  • Optik karakter tanıma: Finansal raporlar, içerikte değişiklik yapılmasını önlemek için metin yerine resimlere eklenmiş önemli miktarda içerik içerebilir. Aşağıdaki sunuda, üç aylık Microsoft raporundan bir örnek gösterilmektedir:

    Screenshot of an example of content embedded in an image.

    Destenin tüm slaytları yalnızca grafik içeriği içerir. Bilgileri kullanmak için, OCR bilişsel becerisi e-postalar (özellikle ekler için geçerlidir) ve pazar haberleri belgeleri için kullanılır. Bu, önceki örnekteki "büyük harcamalar" gibi arama sorgularının, özgün içerik makine tarafından okunamaz olsa bile slayttaki metni bulmasını sağlar. Kullanıcıların metinde yer içermeyen "sermaye harcamaları" için sapma terimlerini kullandığı durumlarda anlamsal arama ile arama ilgisi daha da artırılır.

  • Dil algılama: Genel bir kuruluşta makine çevirisi desteği yaygın bir gereksinimdir. Uyumluluk analistleri ekibinin tutarlı bir şekilde İngilizce okumayı ve iletişim kurmayı tercih ettiğini varsayarsak, örneğin çözümün içeriği doğru bir şekilde çevirebilmesi gerekir. Dil algılama bilişsel becerisi , özgün belgenin dilini tanımlamak için kullanılır. Bu bilgiler, istenen hedef dile çeviri gerekip gerekmediğini belirlemek için kullanılır ve kullanıcıya özgün dili göstermek için kullanıcı arabiriminde de gösterilir.

  • Kişileri ve kuruluşları ayıklama:Varlık Tanıma bilişsel becerisi , yapılandırılmamış metindeki kişileri, konumları, kuruluşları ve diğer varlıkları tanımlayabilir. Bu bilgiler, büyük bir heterojen içerik gövdesinde aramayı veya gezintiyi (örneğin, filtreleme ve yüz tanıma) geliştirmek için kullanılabilir. Risk analizi çözümü için, kişilerin (örneğin, tüccar adları) ve kuruluşların (örneğin, şirket adları) çıkarılması seçildi.

    E-postalar için beceri kümesinin JSON tanımından alınan aşağıdaki örnek, seçilen yapılandırmayla ilgili ayrıntıları sağlar:

    "skills": [
      {
        "@odata.type": "#Microsoft.Skills.Text.V3.EntityRecognitionSkill",
        "name": "Detect Entities",
        "description": "Detect people and organizations in emails",
        "context": "/document/merged_content",
        "categories": [
          "Person",
          "Organization"
        ],
        "defaultLanguageCode": "en",
        "minimumPrecision": 0.85,
        "modelVersion": null,
        "inputs": [
          {
            "name": "text",
            "source": "/document/merged_content"
          },
          {
            "name": "languageCode",
            "source": "/document/original_language"
          }
        ],
        "outputs": [
          {
            "name": "persons",
            "targetName": "people"
          },
          {
            "name": "organizations",
            "targetName": "organizations"
          }
        ]
      },
    

    İlk olarak, içerikten kişi ve kuruluşların çıkarılacağını belirteceğiz. Diğer kategoriler (örneğin, konumlar) vardır ve gerekirse ayıklanabilir. Ancak, başlangıçta çok fazla bilgi içeren aşırı bilgi içeren kullanıcıları önlemek için ayıklamayı bu iki varlıkla kasıtlı olarak kısıtladık.

    Hiçbir yapay zeka çözümü %100 doğruluk sağlamadığından, her zaman hatalı pozitifler (örneğin, gerçekten kuruluş olmayan kuruluş adları) ve hatalı negatifler (örneğin, gerçek kuruluşlar göz ardı edilir) riski vardır. Azure Bilişsel Arama, varlıkları ayıklamada sinyal-gürültü oranını dengelemek için denetimler sağlar. Bizim örneğimizde, tanımanın ilgi düzeyini artırmak ve gürültüyü azaltmak için algılama için minimum duyarlığı 0,85 olarak ayarlayacağız.

    Sonraki adımda, zenginleştirilmiş belgedeki beceri kümesi için girişleri ve çıkışları belirteceğiz. Giriş yolumuz, e-postayı ve ekleri içeren merged_content işaret eder. Ekler içeriği, OCR kullanılarak ayıklanan metinleri içerir.

    Son olarak, belirtilen varlıklar için çıkış adlarını kişi ve kuruluş olarak tanımlarız. Daha sonra bunlar dizin oluşturucu tanımının bir parçası olarak arama dizinine eşlenir.

    Diğer becerilerin tanımları, beceriye özgü ayarlarla desteklenen benzer bir deseni izler.

  • Çeviri: Yabancı dil içeren belgelerin İngilizceye gerçek çevirisi bir sonraki adımda gerçekleştirilir. Metin Çevirisi bilişsel becerisi dönüştürme için kullanılır. Kaynak ve hedef dil aynı olsa bile Çeviri Metin API'sine her metin gönderildiğinde çeviri ücretlerinin değerlendirildiğini unutmayın. Bu durumlarda hizmet ücretlerinden kaçınmak için, bu gibi durumlarda çeviriyi atlamak için ek koşullu bilişsel beceriler kullanılır.

Bahşiş

İçeriği hızla alıp zenginleştirmeye başlamak için Azure Bilişsel Arama'dan veri içeri aktarma yardımcısını kullanabilirsiniz. Bundan sonra beceri kümeleri ve diğer Azure Bilişsel Arama varlıklarını otomatik bir şekilde oluşturma avantajından yararlanacaksınız. Aşağıdaki makale daha fazla bilgi sağlar:

Risk algılama için özel yapay zeka zenginleştirmeleri

artık Azure Bilişsel Arama istediğiniz yerleşik becerileri uyguladığınıza göre, risk analizi için özel modellerin nasıl ekleneceğine bakalım.

İletişim içeriğinde amaçlanan veya gerçek yanlışlığı belirlemek her zaman bağlama bağlıdır ve kapsamlı etki alanı bilgisi gerektirir. Risk analizi çözümünün temel hedeflerinden biri, belirli iş senaryolarında gerçek riskleri ortaya çıkarmak için zenginleştirme işlem hattına özel risk modellerini esnek bir şekilde tümleştirmenin ve uygulamanın bir yolunu sağlamaktır.

Kullanım örneğine bağlı olarak, aşağıdaki konuşma örneği olası bir yanlış kullanım olduğunu gösterebilir:

Illustration that shows a conversation that suggests intended misconduct.

Aşağıdaki seçenekler, riskleri belirlemek için yapılandırılmamış iletişim içeriğini ayrıştırabilir:

  • Anahtar sözcük tabanlı yaklaşım: Bu teknik, olası riskleri belirlemek için ilgili anahtar sözcüklerin (örneğin, çevrimdışı, özel içgörüler) bir listesini kullanır. Bu yaklaşımı uygulamak kolaydır ancak içerikteki formülasyonlar anahtar sözcüklerle eşleşmiyorsa riskleri göz ardı edebilir.
  • Varlık tanıma tabanlı yaklaşımlar: Makine öğrenmesi modeli, dil modeli kullanarak riskleri belirlemek için kısa konuşmalar (örneğin, cümleler) üzerinde eğitilir. Uzman bilgisi, ilgili risk sınıflandırmasıyla (örneğin, piyasa manipülasyonu, şirket içi ticaret) temsili örneklerden oluşan bir eğitim kümesi oluşturmak için kullanılır. Bu tekniğin temel avantajlarından biri, konuşmaların benzer bir anlam ifadesine ancak eğitim kümesindeki örneklerden farklı formülasyonlara sahip olması durumunda risklerin belirlenebilecek olmasıdır. Azure Konuşma dili anlama hizmeti bu amaçlar için kullanılabilir.
  • Gelişmiş NLP tabanlı yaklaşımlar: Sinir ağlarındaki son gelişmeler, sınıflandırma ve diğer NLP görevleri de dahil olmak üzere yapılandırılmamış metinlerin daha uzun kesimlerini analiz etmeye olanak sağlar. Bu yaklaşım, daha ince olan ve birkaç cümleye veya paragrafa yayılan sinyalleri tanımlayabilir. Bu yaklaşımın dezavantajı, genellikle diğer tekniklere kıyasla çok daha fazla eğitim verisinin gerekli olmasıdır. Azure, Özel Metin Sınıflandırması ve Otomatik Makine Öğrenmesi dahil olmak üzere NLP modellerini eğitmak için çeşitli seçenekler sunar.

REST web hizmeti olarak sağlanan tüm modeller, Azure Bilişsel Arama risk analizi çözümüne özel bir beceri olarak tümleştirilebilir. Örneğimizde, Azure Bilişsel Arama ve modeller arasında arabirim işlevi gören bir Azure işleviyle bir dizi Konuşma Dili Anlama modeli tümleştireceğiz. Aşağıdaki diyagramda bu teknik gösterilmektedir:

Diagram that shows how to integrate a custom skill.

Bu mimarinin PowerPoint dosyasını indirin.

Yerleşik beceriler işlendikten sonra e-postalar ve transkripsiyonlar risklere karşı taranır. Özel beceri, belge türünü ve içeriğini ön işleme için Azure İşlevleri uygulamasına sağlar. Uygulama, yayımlanan örneği temel alır ve aşağıdaki görevleri gerçekleştirir:

  1. Hangi modellerin kullanılacağını belirler: Kuruluşlar çeşitli risk türlerini belirlemek için farklı modeller kullanabilir (örneğin, pazar manipülasyonu, şirket içi ticaret, karşılıklı fon sahtekarlığı). İşlevler uygulaması, yapılandırılan tercihlere bağlı olarak kullanılabilir modelleri etkinleştirir.
  2. İçeriği önceden işler: Bu görev, ek içeriğini bırakma ve risk modellerini eğitmek için kullanılan verilerin yapısıyla eşleşecek şekilde metni cümlelere bölmeyi içerir.
  3. Belirteçli içeriği yapılandırılan risk modellerine gönderir: Risk modelleri her tümceye risk puanları atar.
  4. Sonuçları toplar ve puanlar: Bu işlem, beceri kümesine döndürülmeden önce yapılır. Belge risk puanı, tüm cümlelerinin en yüksek riskidir. Tanımlanan üst risk tümcesi de kullanıcı arabiriminde görüntülenmek üzere döndürülür. Ayrıca, belge riskleri puana göre düşük, orta veya yüksek risk olarak sınıflandırılır.
  5. bilgileri Azure Bilişsel Arama dizinine yazar: Bilgiler uyumluluk analisti kullanıcı arabiriminde ve bilgi deposunda kullanılır. Tüm iletişim içeriğini, yerleşik zenginleştirmeleri ve özel risk modellerinin sonuçlarını içerir.

Aşağıdaki JSON örneği, Azure Bilişsel Arama ile İşlevler uygulaması (risk modellerini çağırır) arasındaki arabirim tanımını özel bir beceri olarak gösterir:

   {
      "@odata.type": "#Microsoft.Skills.Custom.WebApiSkill",
      "name": "apply-risk-models",
      "description": "Obtain risk model results",
      "context": "/document/content",
      "uri": "https://risk-models.azurewebsites.net/api/luis-risks?...",
      "httpMethod": "POST",
      "timeout": "PT3M",
      "batchSize": 100,
      "degreeOfParallelism": null,
      "inputs": [
        {
          "name": "text",
          "source": "/document/mergedenglishtext"
        },
        {
          "name": "doc_type",
          "source": "/document/type"
        }
      ],
      "outputs": [
        {
          "name": "risk_average",
          "targetName": "risk_average"
        },
        {
          "name": "risk_models",
          "targetName": "risk_models"
        }
      ],
    },

URI, Azure Bilişsel Arama aşağıdaki girişleri alan İşlevler uygulamasının web adresini belirtir:

  • metin , İngilizce dilindeki içeriği içerir.
  • doc_type transkripsiyonları, e-postaları ve pazar haberlerini ayırt etmek için kullanılır; bunlar farklı ön işleme adımları gerektirir.

İşlevler uygulaması, Dil için Azure Bilişsel Hizmet'in konuşma dilini anlama özelliğinden risk puanlarını aldıktan sonra birleştirilmiş sonuçları Azure Bilişsel Arama döndürür.

Finansal hizmet kuruluşları, mevcut ve yeni risk modellerini esnek bir şekilde birleştirmek için modüler bir yaklaşıma ihtiyaç duyar. Bu nedenle, belirli modellerin sabit kodlaması yapılmaz. Bunun yerine risk_models, risk puanı ve en yüksek risk puanına sahip tanımlanan tümce dahil olmak üzere her risk türünün (örneğin, iç ticaret) ayrıntılarını döndüren karmaşık bir veri türüdür. Uyumluluk ve izlenebilirlik, finansal hizmet kuruluşları için önemli sorunlardır. Ancak risk modelleri sürekli geliştirilir (örneğin, yeni eğitim verileri kullanılır), böylece belgenin tahminleri zaman içinde değişebilir. İzlenebilirliği sağlamak için risk modelinin belirli sürümü de her tahminle birlikte döndürülür.

Mimari, daha gelişmiş NLP modellerini tümleştirmek için yeniden kullanılabilir (örneğin, çeşitli konuşmalara yayabilecek daha küçük risk sinyallerinin tanımlanmasını sağlamak için). Ana ayarlama, İşlevler uygulamasındaki ön işleme adımını NLP modelini eğitmek için yapılan ön işlemeyle eşleştirmektir.

Bahşiş

Uygulama:

Yapay zeka zenginleştirme işlem hatlarında hata ayıklama

Bilgi akışını ve yapay zeka zenginleştirmelerini anlamak büyük beceri kümeleri için zor olabilir. Azure Bilişsel Arama, becerilerin girişleri ve çıkışları dahil olmak üzere zenginleştirme işlem hattının hata ayıklaması ve görselleştirilmesi için yararlı özellikler sağlar.

Illustration of capabilities for debugging an enrichment pipeline.

Akış çizelgesi, Azure portalındaki Azure Bilişsel Arama kaynağının Hata Ayıklama oturumları sekmesinden ayıklandı. İçerik, bir beceri kümesindeki yerleşik beceriler ve özel risk modelleri tarafından ardışık olarak işlendiğinden zenginleştirmelerin akışını özetler.

Beceri grafiğindeki işleme akışı, becerilerin giriş ve çıkış yapılandırmalarına göre Azure Bilişsel Arama tarafından otomatik olarak oluşturulur. Grafik ayrıca işlemedeki paralellik derecesini de gösterir.

Sonraki adımlarda farklı şekilde işlendiğinden, belge türünü (e-posta, transkripsiyon veya haber) tanımlamak için koşullu beceri kullanılır. Koşullu beceriler, özgün ve hedef dillerin aynı olduğu durumlarda çeviri ücretlerinden kaçınmak için kullanılır.

Yerleşik beceriler arasında OCR, dil algılama, varlık algılama, çeviri ve metin birleştirme yer alır. Bu, ekli bir görüntüyü özgün belgedeki eklenmiş OCR çıkışıyla değiştirmek için kullanılır.

İşlem hattındaki son beceri, konuşma dilini anlama risk modellerinin İşlevler uygulaması aracılığıyla tümleştirilmesidir.

Son olarak, özgün ve zenginleştirilmiş alanlar dizine eklenir ve Azure Bilişsel Arama dizinine eşlenir.

Arama yanıtından alınan aşağıdaki alıntı, zenginleştirilmiş içerik ve anlamsal arama kullanılarak elde edilebilecek içgörülerin bir örneğini gösterir. Sorgu terimi "capex nasıldı" ("Raporlama döneminde sermaye harcamaları nasıl gelişti?" ifadesinin kısaltması) şeklindedir.

{
 "@search.captions" : [
  {
   "highlights" : "Cash flow from operations was $22.7 billion, up 2296 year-over-year,   driven by strong cloud billings and collections Free cash flow of $16.3 billion, up 1796 year-over-year, reflecting higher<em> capital expenditures</em> to support our cloud business 6 includes non-GAAP constant currency CCC\") growth and cash flow."
  }],
 "sender_or_caller" : "Jim Smith",
 "recipient" : "Mary Turner",
 "metadata_storage_name" : "Reevaluate MSFT.msg",
 "people" : ["Jim Smith", "Mary Turner", "Bill Ford", … ],
 "organizations" : ["Microsoft", "Yahoo Finance", "Federal Reserve", … ],
 "original_language" : "nl",
 "translated_text" : "Here is the latest update about …",
 "risk_average" : "high",
 "risk_models" : [
  {
   "risk" : "Insider Trade",
   "risk_score" : 0.7187,
   "risk_sentence" : "Happy to provide some special insights to you. Let’s take this conversation offline.",
   "risk_model_version" : "Inside Trade v1.3"
  },
 ]
}

Kullanıcı arabirimi

Bir arama çözümü uygulandıktan sonra Azure portalını kullanarak dizini doğrudan sorgulayabilirsiniz. Bu seçenek öğrenme, deneme ve hata ayıklama için iyi olsa da, iyi bir son kullanıcı deneyimi değildir.

Kullanıcı deneyimine odaklanan özelleştirilmiş bir kullanıcı arabirimi, arama çözümünün gerçek değerini göstermek ve kuruluşların çeşitli kanal ve kaynaklardaki risk iletişimlerini tanımlamasını ve gözden geçirmesini mümkün kılmak için yararlıdır.

Bilgi Madenciliği Çözüm Hızlandırıcısı, arama sonuçlarını sorgulamak ve görüntülemek için hızlı bir şekilde prototip oluşturmak için kullanılabilecek bir .NET Core MVC Web uygulaması olan Azure Bilişsel Arama kullanıcı arabirimi şablonu sağlar.

Birkaç adımda, şablon kullanıcı arabirimi arama dizinine bağlanıp sorgulayacak ve sonuçları aramak ve görselleştirmek için basit bir web sayfası oluşturacak şekilde yapılandırılabilir. Bu şablon, risk iletişimlerini alma ve analiz etme deneyimini geliştirmek için daha fazla özelleştirilebilir.

Aşağıdaki ekran görüntüsünde, Azure Bilişsel Arama kullanıcı arabirimi şablonu özelleştirilerek oluşturulan risk senaryomuz için örnek bir kullanıcı arabirimi gösterilmektedir. Bu kullanıcı arabirimi, kanallar arası iletişimlerin ve risk bilgilerinin sezgisel bir görünümünü sağlayarak arama çözümünü göstermenin bir yolunu gösterir.

Screenshot of a custom user interface created from the Azure Cognitive Search UI template.

Başlangıç sayfası, arama çözümüyle etkileşim sağlar. Kullanıcıya sonuçları arama, iyileştirme, görselleştirme ve araştırma gücü sağlar:

  1. İlk sonuçlar bir arama dizininden alınır ve tablo biçiminde görüntülenir, iletişimlere kolay erişim sağlar ve sonuçların karşılaştırmasını basitleştirir.
    1. Önemli iletişim ayrıntıları kullanıcının kullanımına sunulur ve birden çok kanaldaki belgeler (e-postalar, transkripsiyonlar, haberler) tek bir görünümde birleştirilir.
    2. Özel risk modellerinden alınan puanlar, daha yüksek risklerin vurgulandığı her iletişim için gösterilir.
    3. Birleştirilmiş risk sınıflandırması, özel risk modellerindeki puanları toplar ve sonuçları ortalama risk düzeyine göre sıralamak için kullanılır.
  2. Eşik kaydırıcısı, kullanıcının risk eşiklerini değiştirmesini sağlar. Eşiği aşan özel risk puanları vurgulanır.
  3. Tarih aralığı seçicisi, çözümleme süresini genişletme veya geçmiş sonuçları arama özelliği sağlar.
  4. Arama sonuçları, dil veya belge türü gibi bir dizi filtre kullanılarak iyileştirilebilir. Bu seçenekler, dizinde yapılandırılan modellenebilir alanların bir işlevi olarak kullanıcı arabiriminde dinamik olarak oluşturulur.
  5. Arama çubuğu, belirli terimler veya tümcecikler için dizinde arama özelliği sağlar.
  6. Anlamsal arama kullanılabilir. Kullanıcı standart ve anlamsal arama arasında geçiş yapabilir.
  7. Yeni iletişimler doğrudan kullanıcı arabirimi aracılığıyla karşıya yüklenebilir ve dizine eklenebilir. Her belge için bir ayrıntılar sayfası da sağlanır:

Screenshot of an example details page.

Ayrıntılar sayfası, iletişimin içeriğine ve zenginleştirmelere ve meta verilere erişim sağlar:

  1. Belgeyi çatlatma işlemi sırasında ayıklanan içerik görüntülenir. PDF'ler gibi bazı dosyalar doğrudan ayrıntılar sayfasında görüntülenebilir.
  2. Özel risk modellerinin sonuçları özetlenir.
  3. Belgede bahsedilen en önemli kişiler ve kuruluşlar bu sayfada gösterilir.
  4. Dizin oluşturma işlemi sırasında yakalanan ek meta veriler eklenebilir ve ayrıntılar sayfasının ek sekmelerinde gösterilebilir.

İngilizce olmayan içerik alındıysa, kullanıcı içeriği özgün dilde veya İngilizce olarak gözden geçirebilir. Ayrıntılar sayfasının Transkript sekmesi özgün içeriği ve çevrilmiş içeriği yan yana gösterir. Bu, dizin oluşturma işlemi sırasında her iki dilin de kalıcı hale geldiğini ve her ikisinin de kullanıcı arabirimi tarafından tüketilmesine olanak sağladığını gösterir.

Son olarak, kullanıcı anlamsal aramalar yapabilir. Sonraki örnek, "capex nasıldı" ifadesinin ("raporlama çeyreğinde sermaye harcamaları nasıl gelişti?" ifadesinin anlamsal arama kullanılarak arandığı en üst sonucu gösterir.

Screenshot of a sample UI for a user to enable semantic search.

Tam metin modunda eşdeğer bir arama, arama sorgusunun belgede görünmeyen "capex" için tam eşleşme aramasını verir. Ancak anlamsal özellik, sorgu altyapısının "capex"in "sermaye harcamalarıyla" ilişkili olduğunu tanımlamasını mümkün kılar, böylece bu iletişim en ilgili olarak tanımlanır. Ayrıca semantik arama, belgeyi en uygun cümlelerle özetleyerek anlamsal vurgular (12) oluşturur.

En İyi Uygulamalar

Bu bölümde, uyumluluk riski analizi çözümünüzü geliştirmeye yönelik kurumsal ve teknik en iyi yöntemler özetlemektedir.

Gerekli paydaşları dahil edin: Risk analizi çözümü uygulamak, çeşitli etki alanlarından önemli paydaşları içeren çok disiplinli bir alıştırmadır. Daha önce tanıtılan projeyle ilgili rolleri ve çözümden etkilenen diğer rolleri eklemeyi bekleyebilirsiniz.

Yeterli benimseme ve değişiklik yönetimi sağlayın: Risk analizi uygulamalarının otomatikleştirilmesi büyük olasılıkla çalışanların çalışma biçiminde önemli değişikliklere neden olacaktır. Çözüm değer katsa da, herhangi bir iş akışında yapılan değişiklikler zorlu olabilir ve bu da uzun benimseme dönemlerine ve muhtemelen dirençlere yol açabilir. En iyi yöntemler, etkilenen çalışanları erken dahil etmenizi önerir. Teknoloji benimseme yolculuğunun beş temel adımına odaklanan Prosci ADKAR benimseme modelini düşünün: Farkındalık, İstek, Bilgi, Beceri ve Pekiştirme.

Riskleri ortaya çıkarmak için birden çok kanal kullanın: Olası riskleri algılamak için her iletişim kanalı (örneğin, e-posta, sohbetler, telefon) yalıtılmış olarak incelenebilir. Ancak, daha iyi içgörüler, resmi (örneğin, e-posta) ve daha az resmi (örneğin, sohbetler) iletişimlerin heterojen kanalları birleştirilerek elde edilir. Ayrıca tamamlayıcı bilgilerin (örneğin, pazar haberleri, şirket raporları, SEC dosyaları) tümleştirilmesi, uyumluluk analisti için ek bağlam (örneğin, bir şirketin belirli bir girişimi hakkında) sağlayabilir.

Basit başlayın ve yineleme yapın: Azure Bilişsel Arama, çeşitli Bilişsel Hizmetler'i temel alan kapsamlı bir yerleşik yapay zeka zenginleştirmeleri kümesi sağlar. Bu özelliklerin çoğunu hemen eklemek cazip olabilir. Ancak, düzgün denetlenmediyse ayıklanabilen varlık veya anahtar tümcecik sayısı son kullanıcıyı bunaltabilir. Daha az beceri veya varlık kümesinden başlayarak hem kullanıcıların hem de geliştiricilerin en çok değer katanları anlamasına yardımcı olabilir.

Sorumlu yenilikler: Yapay zeka çözümlerinin geliştirilmesi, ilgili tüm çözümlerden yüksek düzeyde sorumluluk gerektirir. Microsoft yapay zekanın sorumlu kullanımını çok ciddiye alır ve temel tasarım ilkeleri çerçevesinde bir çerçeve geliştirmiştir:

  • Eşitlik
  • Güvenilirlik ve güvenlik
  • Gizlilik ve güvenlik
  • Kapsayıcılık
  • Saydamlık ve sorumluluk

Çalışan iletişimlerinin değerlendirilmesi özel dikkat gerektirir ve etik kaygılar doğurmaktadır. Bazı ülkelerde/bölgelerde çalışanların otomatik olarak izlenmesi katı yasal kısıtlamalara tabidir. Tüm bu nedenlerle, sorumlu yenilikleri proje planınızın köşe taşı haline getirin. Microsoft bu amaçla çeşitli çerçeveler ve araçlar sunar. Daha fazla bilgi için bu bölümün sonundaki İpucu kutusuna bakın.

Geliştirme yinelemelerinizi otomatikleştirme: Verileri içeri aktarma sihirbazı kullanmaya başlamanızı kolaylaştırır, ancak daha karmaşık çözümler ve üretken kullanım örnekleri için kodda veri kaynakları, dizin oluşturucular, dizinler ve beceri kümeleri gibi varlıklar oluşturmanızı öneririz. Otomasyon, geliştirme döngülerini önemli ölçüde hızlandırır ve üretime tutarlı bir dağıtım sağlar. Varlıklar JSON biçiminde belirtilir. JSON tanımlarını portaldan kopyalayabilir, gerektiğinde değiştirebilir ve ardından Azure Bilişsel Arama REST API'lerine yapılan çağrıların istek gövdesinde sağlayabilirsiniz.

Risk analizi için uygun NLP yaklaşımını seçin: Temel anahtar sözcük arama ve varlık ayıklamadan güçlü modern NLP mimarilerine kadar yapılandırılmamış metin aralığındaki riskleri belirlemenin yolları. En iyi seçenek, belirli bir kullanım örneği için mevcut eğitim verilerinin miktarına ve kalitesine bağlıdır. Eğitim verileri sınırlıysa, Dil için Azure Bilişsel Hizmet'in konuşma dilini anlama özelliğini kullanarak konuşma tabanlı bir model eğitebilirsiniz. Mevcut konuşmalar, ilgili risk türlerini gösteren tümceleri tanımlamak ve etiketlemek için gözden geçirilebilir. Bazen onlarca örnek, modeli iyi sonuçlarla eğitmek için yeterlidir.

Risk işaretlerinin daha hafif olduğu ve birkaç cümleyi kapsadığı durumlarda, en yeni NLP modelini eğiterek daha iyi bir seçim olabilir. Ancak bu yaklaşım genellikle önemli ölçüde daha fazla eğitim verisi gerektirir. Olası yanlış tahminlere uyum sağlamak ve zaman içinde performansını artırmak için modeli sürekli olarak yeniden eğitmek için mümkün olduğunda gerçek dünya verilerinin kullanılması önerilir.

Kullanıcı arabirimini özel gereksinimlerinize göre uyarlayın: Zengin bir kullanıcı arabirimi, Azure Bilişsel Arama ve yapay zeka zenginleştirmelerinin tüm katma değerlerini kullanılabilir hale getirebilir. Azure AI Arama Kullanıcı Arabirimi Şablonu, ilk web uygulamasını uygulamak için kolay ve hızlı bir yol sağlasa da, büyük olasılıkla ek özellikleri tümleştirmek için uyarlanması gerekir. Ayrıca işlenen iletişim türlerini, kullanılan yapay zeka zenginleştirme türlerini ve ek iş gereksinimlerini karşılaması gerekir. Ön uç geliştiriciler, iş paydaşları ve son kullanıcılar arasında sürekli işbirliği ve yineleme, ilgili iletişimleri bulma ve gözden geçirme kullanıcı deneyimini iyileştirerek çözümün değerini artırmaya yardımcı olacaktır.

Çeviri hizmetleri için maliyetleri iyileştirme: Varsayılan olarak tüm belgeler yapay zeka zenginleştirme işlem hattı üzerinden akar. Başka bir deyişle, gerçek çeviri gerekmese bile İngilizce belgeler çeviri hizmetine geçirilir. Ancak içerik Çeviri API'si tarafından işlendiğinden ücret uygulanır. Çözümümüzde, bu durumlarda çeviriyi önlemek için dil algılamayı koşullu becerilerle birlikte kullanırız. Özgün belgenin algılanan dili İngilizce değilse, içerik İngilizce olmayan içerik için belirli bir alana kopyalanır ve çeviri hizmetine geçirilir. Belge İngilizce ise, bu alan boştur ve çeviri ücreti oluşturulmaz. Son olarak, tüm içerik (başlangıçta İngilizce veya çevrilmiş) daha fazla işlem için ortak bir alanla birleştirilir. Ayrıca mevcut zenginleştirmeleri yeniden kullanmak için önbelleğe almayı etkinleştirebilirsiniz.

Üretim ortamınızın kullanılabilirliğini ve ölçeklenebilirliğini sağlama: Kavram kanıtından üretim planlamasına geçtikten sonra, arama çözümünüzün güvenilirliğini ve performansını sağlamak için kullanılabilirliği ve ölçeklenebilirliği göz önünde bulundurmanız gerekir. Arama hizmetinin örnekleri çoğaltma olarak adlandırılır ve sorgu işlemlerinin yükünü dengelemek için kullanılır. Yüksek kullanılabilirlik ve artan sorgu performansı için çoğaltmalar ekleyin. Çözümünüzün ölçeklenebilirliğini yönetmek için bölümleri kullanın. Bölümler fiziksel depolamayı temsil eder ve belirli boyut ve G/Ç özelliklerine sahiptir. Kapasiteyi yönetme ve diğer hizmet yönetimi konuları hakkında daha fazla bilgi için belgelere bakın.

Sonuç

Bu kılavuz, sahtekarlık işaretlerini aramak için yapay zeka kullanan bir çözüm ayarlamaya yönelik kapsamlı rehberlik sağlar. Bu yaklaşım sağlık hizmetleri veya kamu gibi diğer düzenlemeye tabi sektörler için geçerlidir.

Mimariyi, aşağıdakiler gibi diğer veri kaynaklarını ve yapay zeka özelliklerini içerecek şekilde genişletebilirsiniz:

  • Piyasa verileri (örneğin hisse senetleri) ve işlem bilgileri gibi yapılandırılmış verileri alma.
  • Azure Form Tanıma ve Azure Okuma API'si gibi özellikleri kullanarak kağıt tabanlı kaynaklardan içerik ayıklamak için tasarlanmış sınıflandırma modelleri ekleme.
  • İlgili konuları kategorilere ayırmak ve filtrelemek için Azure Language Studio özelliklerini kullanarak sosyal ağ bilgilerini alma veya görüş eğilimlerini yakalamak için Azure Yaklaşım Analizi.
  • Microsoft 365'ten kişiler arası etkileşimler, kişilerin birlikte çalıştığı şirketler veya eriştikleri bilgiler gibi bilgileri bir araya getirmek ve birleştirmek için Microsoft Graph kullanma. Bu verileri Azure Depolama'a kaydettiğinizde kolayca arayabilirsiniz.

Azure Bilişsel Arama çözümü temel alan teknoloji, bilgi madenciliği, katalog araması ve uygulama içi aramayı desteklediğinden en iyi seçenektir. Birden çok veri kaynağına dağıtmak ve bağlanmak ve içerik işleme için yerleşik ve genişletilebilir yapay zeka sağlamak kolaydır. Derin öğrenmeyle desteklenen anlamsal arama gibi özelliklere, kullanıcı amacını çıkarsayabilen ve en ilgili sonuçları görüntüleyip derecelendirebilen özelliklere sahiptir.

Katkıda Bulunanlar

Bu makale Microsoft tarafından yönetilir. Başlangıçta aşağıdaki katkıda bulunanlar tarafından yazılmıştır.

Asıl yazarlar:

Genel olmayan LinkedIn profillerini görmek için LinkedIn'de oturum açın.

Sonraki Adımlar