Enriquecimento de IA com o Azure Cognitive Search

Azure
Funções
GitHub

Conjuntos de dados grandes e não estruturados, como os arquivos JFK, que contêm mais de 34.000 páginas de documentos sobre a investigação de CIA da 1963 JFK Assassination, incluem anotações digitadas e manuscritas, Fotos e diagramas, além de outras informações não estruturadas que as soluções de pesquisa padrão não podem analisar.Large, unstructured datasets like the JFK Files, which contain over 34,000 pages of documents about the CIA investigation of the 1963 JFK assassination, include typewritten and handwritten notes, photos and diagrams, and other unstructured data that standard search solutions can't parse.

O enriquecimento do ia no Azure pesquisa cognitiva pode extrair e aprimorar texto pesquisável e indexável de imagens, BLOBs e outras fontes de dados não estruturadas, como os arquivos JFK, usando o habilidades de aprendizado de máquina pré-treinado do Pesquisa Visual computacional de serviços cognitivas e análise de texto APIs.AI enrichment in Azure Cognitive Search can extract and enhance searchable, indexable text from images, blobs, and other unstructured data sources like the JFK Files by using pre-trained machine learning skillsets from the Cognitive Services Computer Vision and Text Analytics APIs. Você também pode criar e anexar habilidades personalizadas para adicionar processamento especial para dados específicos de domínio, como CIA Cryptonyms.You can also create and attach custom skills to add special processing for domain-specific data like CIA Cryptonyms. O Azure Pesquisa Cognitiva pode então indexar e pesquisar o contexto.Azure Cognitive Search can then index and search the context.

Esta solução de exemplo usa o Azure Pesquisa Cognitiva o enriquecimento de ia para extrair o significado do conjunto de dados de arquivos JFK complexos e não estruturados originais.This example solution uses Azure Cognitive Search AI enrichment to extract meaning from the original complex, unstructured JFK Files dataset. Você pode trabalhar no projeto, assistir o processo em ação em um vídeo onlineou explorar os arquivos JFK com uma demonstração online.You can work through the project, watch the process in action in an online video, or explore the JFK Files with an online demo.

Possíveis casos de usoPotential use cases

  • Aumente o valor e o utilitário de conteúdo de texto não estruturado e imagem em aplicativos de pesquisa e ciência de dados.Increase the value and utility of unstructured text and image content in search and data science apps.
  • Use habilidades personalizadas para integrar o código aberto, de terceiros ou de terceiros em pipelines de indexação.Use custom skills to integrate open-source, third-party, or first-party code into indexing pipelines.
  • Transforme documentos BMP ou JPG em pesquisa de texto completo.Make scanned BMP or JPG documents full-text searchable.
  • Produza resultados melhores do que a extração de texto PDF padrão para PDFs com imagem combinada e texto.Produce better outcomes than standard PDF text extraction for PDFs with combined image and text.
  • Crie novas informações de conteúdo bruto inerentemente significativo ou contexto oculto em documentos maiores não estruturados ou semiestruturados.Create new information from inherently meaningful raw content or context that's hidden in larger unstructured or semi-structured documents.

ArquiteturaArchitecture

Arquitetura de Pesquisa Cognitiva para converter não estruturada em dados estruturados

Este diagrama ilustra o processo de passagem de dados não estruturados por meio do pipeline de Pesquisa Cognitiva habilidades para produzir dados estruturados e indexáveis.This diagram illustrates the process of passing unstructured data through the Cognitive Search skills pipeline to produce structured, indexable data.

  1. O armazenamento de blob fornece dados de documento e imagem não estruturados para Pesquisa Cognitiva.Blob storage provides unstructured document and image data to Cognitive Search.
  2. Pesquisa Cognitiva aplica habilidades cognitivas pré-criados aos dados, incluindo OCR, reconhecimento de texto e manuscrito, análise de imagem, reconhecimento de entidade e pesquisa de texto completo.Cognitive Search applies pre-built cognitive skillsets to the data, including OCR, text and handwriting recognition, image analysis, entity recognition, and full-text search.
  3. O mecanismo de extensibilidade do Pesquisa Cognitiva usa uma função do Azure para aplicar a habilidade personalizada do CIA Cryptonyms aos dados.The Cognitive Search extensibility mechanism uses an Azure Function to apply the CIA Cryptonyms custom skill to the data.
  4. Os habilidades personalizados e predefinidos fornecem conhecimento estruturado que o Azure Pesquisa Cognitiva pode indexar.The pre-built and custom skillsets deliver structured knowledge that Azure Cognitive Search can index.

ComponentesComponents

O Azure Pesquisa Cognitiva funciona com outros componentes do Azure para fornecer essa solução.Azure Cognitive Search works with other Azure components to provide this solution.

Armazenamento do Blobs do AzureAzure Blob Storage

O armazenamento de BLOBs do Azure é um armazenamento de objeto baseado em REST para dados que você pode acessar de qualquer lugar do mundo por meio de HTTPS.Azure Blob Storage is REST-based object storage for data that you can access from anywhere in the world via HTTPS. Você pode usar o armazenamento de Blob para expor dados publicamente para o mundo ou para armazenar dados do aplicativo de forma privada.You can use Blob storage to expose data publicly to the world, or to store application data privately. O armazenamento de BLOBs é ideal para grandes quantidades de dados não estruturados, como texto ou elementos gráficos.Blob storage is ideal for large amounts of unstructured data like text or graphics.

Pesquisa cognitiva indexa o conteúdo e capacita a experiência do usuário.Cognitive Search indexes the content and powers the user experience. Você usa Pesquisa Cognitiva recursos para aplicar habilidades cognitivas predefinidas ao conteúdo e usar o mecanismo de extensibilidade para adicionar habilidades personalizadas.You use Cognitive Search capabilities to apply pre-built cognitive skills to the content, and use the extensibility mechanism to add custom skills.

Funções do AzureAzure Functions

O Azure Functions é um serviço de computação sem servidor que permite executar pequenas partes do código disparado por eventos, independentemente de precisar provisionar ou gerenciar explicitamente a infraestrutura.Azure Functions is a serverless compute service that lets you run small pieces of event-triggered code without having to explicitly provision or manage infrastructure. Este exemplo usa um método do Azure function para aplicar a lista de Cryptonyms CIA aos arquivos JFK como uma habilidade personalizada.This example uses an Azure Function method to apply the CIA Cryptonyms list to the JFK Files as a custom skill.

Serviço de Aplicativo do AzureAzure App Service

A solução de exemplo também cria um aplicativo Web autônomo no serviço Azure app para teste, demonstrando, pesquisando o índice e explorando as conexões nos documentos aprimorados e indexados.The example solution also builds a standalone web app in Azure App Service for testing, demonstrating, searching the index, and exploring connections in the enriched and indexed documents.

Problemas e consideraçõesIssues and considerations

  • O projeto de código e a demonstração mostram um caso de uso específico de Pesquisa Cognitiva.The code project and demo showcase a particular Cognitive Search use case. Este exemplo não se destina a ser uma estrutura ou arquitetura escalonável para todos os cenários, mas para fornecer uma orientação geral e um exemplo.This example isn't intended to be a framework or scalable architecture for all scenarios, but to provide a general guideline and example.
  • Os resultados do OCR variam muito dependendo da qualidade da imagem e da verificação.OCR results vary greatly depending on scan and image quality. A leitura usa os modelos de reconhecimento mais recentes, mas tem menos suporte a idioma do que o OCR.Read uses the latest recognition models, but has less language support than OCR.
  • Alguns formatos PDF verificados e nativos podem não ser analisados corretamente no Pesquisa Cognitiva.Some scanned and native PDF formats may not parse correctly in Cognitive Search.
  • O projeto de exemplo JFK Files e a demonstração criam um site público e um contêiner de armazenamento legível publicamente para imagens extraídas, portanto, não use essa solução com dados não públicos.The JFK Files sample project and demo create a public website and publicly readable storage container for extracted images, so don't use this solution with non-public data.

Próximas etapasNext steps