Início Rápido: Criar um conjunto de habilidades cognitivas da Pesquisa Cognitiva do Azure no portal do AzureQuickstart: Create an Azure Cognitive Search cognitive skillset in the Azure portal

Um conjunto de habilidades é um recurso de IA que extrai informações e estrutura de grandes arquivos de texto não diferenciado ou de imagens e as torna indexáveis e pesquisáveis para consultas de pesquisa de texto completo na Pesquisa Cognitiva do Azure.A skillset is an AI feature that extracts information and structure from large undifferentiated text or image files, and makes it indexable and searchable for full text search queries in Azure Cognitive Search.

Neste início rápido, você combinará serviços e dados na nuvem do Azure para criar o conjunto de habilidades.In this quickstart, you'll combine services and data in the Azure cloud to create the skillset. Quando tudo estiver configurado, você executará o assistente Importar dados no portal para reunir tudo.Once everything is in place, you'll run the Import data wizard in the portal to pull it all together. O resultado final é um índice pesquisável populado com dados criados pelo processamento de IA que você pode consultar no portal (Gerenciador de pesquisa).The end result is a searchable index populated with data created by AI processing that you can query in the portal (Search explorer).

Se você não tiver uma assinatura do Azure, crie uma conta gratuita antes de começar.If you don't have an Azure subscription, create a free account before you begin.

Criar serviços e carregar dadosCreate services and load data

Este início rápido usa o Azure Cognitive Search, o Armazenamento de Blobs do Azure e os Serviços Cognitivos do Azure para a IA.This quickstart uses Azure Cognitive Search, Azure Blob storage, and Azure Cognitive Services for the AI.

Como a carga de trabalho é muito pequena, os Serviços Cognitivos são acionados nos bastidores para fornecer processamento gratuito para até 20 transações diárias por indexador quando invocados pelo Azure Cognitive Search.Because the workload is so small, Cognitive Services is tapped behind the scenes to provide free processing for up to 20 transactions daily per indexer when invoked from Azure Cognitive Search. Desde que use os dados de exemplo que fornecemos, você pode ignorar a criação ou anexação de um recurso dos Serviços Cognitivas.As long as you use the sample data we provide, you can skip creating or attaching a Cognitive Services resource.

  1. Fazer o download de dados de exemplo consiste em um conjunto de pequenos arquivos de tipos diferentes.Download sample data consisting of a small file set of different types. Descompacte os arquivos.Unzip the files.

  2. Criar uma conta de armazenamento do Azure ou localizar uma conta.Create an Azure storage account or find an existing account.

    Escolha a mesma região do Azure Cognitive Search para evitar preços de largura de banda.Choose the same region as Azure Cognitive Search to avoid bandwidth charges.

    Escolha o tipo de conta StorageV2 (uso geral V2) se quiser experimentar o recurso de repositório de conhecimento mais tarde, em outro passo a passo.Choose the StorageV2 (general purpose V2) account type if you want to try out the knowledge store feature later, in another walkthrough. Caso contrário, escolha qualquer tipo.Otherwise, choose any type.

  3. Abra as páginas dos serviços Blob e crie um contêiner.Open the Blob services pages and create a container. Você pode usar o nível de acesso público padrão.You can use the default public access level.

  4. No contêiner, clique em Carregar para carregar os arquivos de exemplo baixados na primeira etapa.In container, click Upload to upload the sample files you downloaded in the first step. Observe que você tem uma ampla variedade de tipos de conteúdo, incluindo arquivos de aplicativo e imagens que não são pesquisáveis com texto completo em seus formatos nativos.Notice that you have a wide range of content types, including images and application files that are not full text searchable in their native formats.

    Arquivos de origem no armazenamento de blobs do Azure

  5. Crie um serviço do Azure Cognitive Search ou localize um serviço existente.Create an Azure Cognitive Search service or find an existing service. É possível usar um serviço gratuito para este início rápido.You can use a free service for this quickstart.

Agora, você está pronto prosseguir para assistente de Importação de dados.You are now ready to move on the Import data wizard.

Executar o assistente de Importação de dadosRun the Import data wizard

Na página de Visão geral do serviço de pesquisa, clique em Importar dados na barra de comandos para definir o enriquecimento cognitivo em quatro etapas.In the search service Overview page, click Import data on the command bar to set up cognitive enrichment in four steps.

Comando Importar de dados

Etapa 1: Criar uma fonte de dadosStep 1 - Create a data source

  1. Em Conectar-se aos seus dados, escolha Armazenamento de Blobs do Azure e selecione a conta de Armazenamento e o contêiner criados.In Connect to your data, choose Azure Blob storage, select the Storage account and container you created. Dê um nome de fonte de dados e use valores padrão para o restante.Give the data source a name, and use default values for the rest.

    Configuração de BLOBs do Azure

    Continue para a próxima página.Continue to the next page.

Etapa 2: Adicionar habilidades cognitivasStep 2 - Add cognitive skills

Em seguida, configure o enriquecimento de IA para invocar o OCR, a análise de imagem e o processamento em idioma natural.Next, configure AI enrichment to invoke OCR, image analysis, and natural language processing.

  1. Para este início rápido, estamos usando o recurso gratuito dos Serviços Cognitivos.For this quickstart, we are using the Free Cognitive Services resource. Os dados de exemplo consistem em 14 arquivos e, portanto, a alocação gratuita de 20 transações nos Serviços Cognitivos é suficiente para este início rápido.The sample data consists of 14 files, so the free allotment of 20 transaction on Cognitive Services is sufficient for this quickstart.

    Anexar Serviços Cognitivos

  2. Expanda Adicionar enriquecimentos e faça quatro seleções.Expand Add enrichments and make four selections.

    Habilite o OCR para adicionar habilidades de análise de imagem à página do assistente.Enable OCR to add image analysis skills to wizard page.

    Defina a granularidade como Páginas para dividir o texto em partes menores.Set granularity to Pages to break up text into smaller chunks. Várias habilidades de texto são limitadas a entradas de 5 KB.Several text skills are limited to 5-KB inputs.

    Escolha reconhecimento de entidade (pessoas, organizações, localizações) e habilidades de análise de imagem.Choose entity recognition (people, organizations, locations) and image analysis skills.

    Anexar Serviços Cognitivos

    Continue para a próxima página.Continue to the next page.

Etapa 3: Configurar o índiceStep 3 - Configure the index

Um índice inclui o conteúdo pesquisável e o assistente Importar dados normalmente pode criar o esquema para você por meio da amostragem da fonte de dados.An index contains your searchable content and the Import data wizard can usually create the schema for you by sampling the data source. Nesta etapa, revise o esquema gerado e, potencialmente, revise as configurações.In this step, review the generated schema and potentially revise any settings. Veja abaixo o esquema padrão criado para o conjunto de dados de Blob de demonstração.Below is the default schema created for the demo Blob data set.

Para este guia de início rápido, o assistente faz um bom trabalho configurando padrões razoáveis:For this quickstart, the wizard does a good job setting reasonable defaults:

  • Os campos padrão são baseados nas propriedades de blobs existentes, além de novos campos para conter a saída de enriquecimento (por exemplo, people, organizations, locations).Default fields are based on properties for existing blobs plus new fields to contain enrichment output (for example, people, organizations, locations). Os tipos de dados são inferidos dos metadados e pela amostragem de dados.Data types are inferred from metadata and by data sampling.

  • A chave do documento padrão é metadata_storage_path (selecionado porque o campo contém valores exclusivos).Default document key is metadata_storage_path (selected because the field contains unique values).

  • Os atributos padrão são Recuperável e Pesquisável.Default attributes are Retrievable and Searchable. Pesquisável permite a pesquisa de texto completo de um campo.Searchable allows full text search a field. Recuperável significa que os valores de campo podem ser retornados nos resultados.Retrievable means field values can be returned in results. O assistente pressupõe que você deseja que esses campos sejam recuperáveis e pesquisáveis porque você os criou por meio de um conjunto de qualificações esses campos.The wizard assumes you want these fields to be retrievable and searchable because you created them via a skillset.

    Campos de índice

Note que o ponto de interrogação e tachado no atributo Recuperável ao lado do campo content.Notice the strikethrough and question mark on the Retrievable attribute by the content field. Para documentos de blob com muito texto, o campo content contém a maior parte do arquivo, potencialmente em execução em milhares de linhas.For text-heavy blob documents, the content field contains the bulk of the file, potentially running into thousands of lines. Um campo como esse é complicado nos resultados da pesquisa. Você deve excluí-lo nesta demonstração.A field like this is unwieldy in search results and you should exclude it for this demo.

No entanto, caso precise transmitir o conteúdo do arquivo para o código do cliente, verifique se Recuperável permanece selecionado.However, if you need to pass file contents to client code, make sure that Retrievable stays selected. Caso contrário, considere a possibilidade de limpar esse atributo em content se os elementos extraídos (como people, organizations, locations etc.) forem suficientes.Otherwise, consider clearing this attribute on content if the extracted elements (such as people, organizations, locations, and so forth) are sufficient.

Marcar um campo como Recuperável não significa que ele deve estar presente nos resultados da pesquisa.Marking a field as Retrievable does not mean that the field must be present in the search results. Você pode controlar com precisão a composição de resultados da pesquisa usando o parâmetro de consulta $select para especificar quais campos serão incluídos.You can precisely control search results composition by using the $select query parameter to specify which fields to include. Para campos de texto com uso intenso, como content, o parâmetro $select é sua solução para fornecer resultados da pesquisa gerenciáveis para usuários humanos do seu aplicativo, ao mesmo tempo garantindo que o código do cliente tenha acesso a todas as informações necessárias por meio do atributo Recuperável.For text-heavy fields like content, the $select parameter is your solution for providing manageable search results to the human users of your application, while ensuring client code has access to all the information it needs via the Retrievable attribute.

Continue para a próxima página.Continue to the next page.

Etapa 4: Configurar o indexadorStep 4 - Configure the indexer

O indexador é um recurso de alto nível que orienta o processo de indexação.The indexer is a high-level resource that drives the indexing process. Ele especifica o nome da fonte de dados, um índice de destino e a frequência de execução.It specifies the data source name, a target index, and frequency of execution. O assistente Importar dados cria vários objetos, e um deles sempre é um indexador que você pode executar várias vezes.The Import data wizard creates several objects, and of them is always an indexer that you can run repeatedly.

  1. Na página Indexador, você pode aceitar o nome padrão clicar na opção de agenda Uma Vez para executá-lo imediatamente.In the Indexer page, you can accept the default name and click the Once schedule option to run it immediately.

    Definição de indexador

  2. Clique em Enviar para criar e executar simultaneamente o indexador.Click Submit to create and simultaneously run the indexer.

Monitorar statusMonitor status

A indexação de habilidades cognitivas leva mais tempo para ser concluída em relação à indexação típica baseada em texto, especialmente, o OCR e a análise de imagem.Cognitive skills indexing takes longer to complete than typical text-based indexing, especially OCR and image analysis. Para monitorar o progresso, vá para a página Visão geral e clique em Indexadores no meio da página.To monitor progress, go to the Overview page and click Indexers in the middle of page.

Notificação da Pesquisa Cognitiva do Azure

Os avisos são normais, considerando a ampla variedade de tipos de conteúdo.Warnings are normal given the wide range of content types. Alguns tipos de conteúdo não são válidos para determinadas habilidades e, em camadas inferiores, é comum encontrar limites de indexador.Some content types aren't valid for certain skills and on lower tiers its common to encounter indexer limits. Por exemplo, as notificações de truncamento de 32 mil caracteres são um limite de indexador na Camada gratuita.For example, truncation notifications of 32,000 characters are an indexer limit on the Free tier. Se você executar esta demonstração em um nível superior, muitos avisos de truncamento desaparecerão.If you ran this demo on a higher tier, many truncation warnings would go away.

Para verificar avisos ou erros, clique no status Aviso na lista Indexadores para abrir a página Histórico de Execução.To check warnings or errors, click on the Warning status on the Indexers list to open the Execution History page.

Nessa página, clique no status Aviso novamente para ver a lista de avisos semelhante à mostrada abaixo.On that page, click Warning status again to view the list of warnings similar to the one shown below.

Lista de avisos do indexador

Os detalhes são exibidos quando você clica em uma linha de status específica.Details appear when you click a specific status line. Esse aviso indica que a mesclagem foi parada depois de atingir um limite máximo (esse PDF específico é grande).This warning says that that merging stopped after reaching a maximum threshold (this particular PDF is large).

Detalhes do aviso

Consultar no Gerenciador de pesquisaQuery in Search explorer

Depois que um índice é criado, você pode executar consultas para retornar os resultados.After an index is created, you can run queries to return results. No portal, use o Gerenciador de pesquisa para essa tarefa.In the portal, use Search explorer for this task.

  1. Na página de painel do serviço de pesquisa, clique em Gerenciador de pesquisa na barra de comandos.On the search service dashboard page, click Search explorer on the command bar.

  2. Clique em Alterar índice na parte superior para selecionar o índice que você criou.Select Change Index at the top to select the index you created.

  3. Insira uma cadeia de caracteres de pesquisa para consultar o índice, como search=Microsoft&$select=people,organizations,locations,imageTags.Enter a search string to query the index, such as search=Microsoft&$select=people,organizations,locations,imageTags.

Os resultados são retornados em JSON, que podem ser detalhados e difíceis de serem lidos, especialmente em documentos grandes provenientes de blobs do Azure.Results are returned as JSON, which can be verbose and hard to read, especially in large documents originating from Azure blobs. Algumas dicas para pesquisa nessa ferramenta incluem as seguintes técnicas:Some tips for searching in this tool include the following techniques:

  • Acrescente $select para especificar quais campos serão incluídos nos resultados.Append $select to specify which fields to include in results.
  • Use CTRL-F para pesquisa no JSON em busca de propriedades ou termos específicos.Use CTRL-F to search within the JSON for specific properties or terms.

As cadeias de consulta diferenciam maiúsculas de minúsculas e, portanto, se você receber uma mensagem "campo desconhecido", verifique Campos ou Definição de Índice (JSON) para verificar o nome e as maiúsculas e as minúsculas.Query strings are case-sensitive so if you get an "unknown field" message, check Fields or Index Definition (JSON) to verify name and case.

Exemplo Gerenciador de Pesquisa

ObservaçõesTakeaways

Agora, você criou seu primeiro conjunto de habilidades e aprendeu conceitos importantes que são úteis para criar um protótipo de uma solução de pesquisa enriquecida usando seus próprios dados.You've now created your first skillset and learned important concepts useful for prototyping an enriched search solution using your own data.

Alguns conceitos-chave Esperamos que você pegou incluem a dependência em fontes de dados do Azure.Some key concepts that we hope you picked up include the dependency on Azure data sources. Um conjunto de habilidades é associado a um indexador e os indexadores são específicos do Azure e de origem.A skillset is bound to an indexer, and indexers are Azure and source-specific. Embora este guia de início rápido Use o armazenamento de BLOBs do Azure, outras fontes de dados do Azure são possíveis.Although this quickstart uses Azure Blob storage, other Azure data sources are possible. Para obter mais informações, consulte Indexadores na Pesquisa Cognitiva do Azure.For more information, see Indexers in Azure Cognitive Search.

Outro conceito importante é que as habilidades operam sobre tipos de conteúdo e, ao trabalhar com um conteúdo heterogêneo, algumas entradas serão ignoradas.Another important concept is that skills operate over content types, and when working with heterogenous content, some inputs will be skipped. Além disso, arquivos ou campos grandes podem exceder os limites de indexador da sua camada de serviço.Also, large files or fields might exceed the indexer limits of your service tier. É normal ver avisos quando esses eventos ocorrem.It's normal to see warnings when these events occur.

A saída é direcionada para um índice de pesquisa e há um mapeamento entre pares nome-valor criados durante a indexação e campos individuais no índice.Output is directed to a search index, and there is a mapping between name-value pairs created during indexing and individual fields in your index. Internamente, o portal configura anotações e define uma conjunto de qualificações, estabelecendo a ordem das operações e o fluxo geral.Internally, the portal sets up annotations and defines a skillset, establishing the order of operations and general flow. Essas etapas estão ocultos no portal, mas quando você começar a escrever código, esses conceitos tornam-se importantes.These steps are hidden in the portal, but when you start writing code, these concepts become important.

Por fim, você aprendeu que pode verificar o conteúdo consultando o índice.Finally, you learned that can verify content by querying the index. No final, o que a Pesquisa Cognitiva do Azure fornece é um índice pesquisável, que pode ser consultado usando a sintaxe de consulta totalmente estendida ou simples.In the end, what Azure Cognitive Search provides is a searchable index, which you can query using either the simple or fully extended query syntax. Um índice que contém campos enriquecidos é como qualquer outro.An index containing enriched fields is like any other. Se quiser incorporar analisadores personalizados ou padrão, perfis de pontuação, sinônimos, filtros facetados, pesquisa geográfica ou qualquer outro recurso da Pesquisa Cognitiva do Azure, você certamente poderá fazê-lo.If you want to incorporate standard or custom analyzers, scoring profiles, synonyms, faceted filters, geo-search, or any other Azure Cognitive Search feature, you can certainly do so.

Limpar os recursosClean up resources

Quando você está trabalhando em sua própria assinatura, é uma boa ideia identificar, no final de um projeto, se você ainda precisa dos recursos criados.When you're working in your own subscription, it's a good idea at the end of a project to identify whether you still need the resources you created. Recursos deixados em execução podem custar dinheiro.Resources left running can cost you money. Você pode excluir os recursos individualmente ou excluir o grupo de recursos para excluir todo o conjunto de recursos.You can delete resources individually or delete the resource group to delete the entire set of resources.

Você pode localizar e gerenciar recursos no portal usando o link Todos os recursos ou Grupos de recursos no painel de navegação à esquerda.You can find and manage resources in the portal, using the All resources or Resource groups link in the left-navigation pane.

Se você estiver usando um serviço gratuito, estará limitado a três índices, indexadores e fontes de dados.If you are using a free service, remember that you are limited to three indexes, indexers, and data sources. Você pode excluir itens individuais no portal para permanecer abaixo do limite.You can delete individual items in the portal to stay under the limit.

Dica

Se desejar repetir esse exercício ou experimentar um passo a passo de enriquecimento de IA diferente, exclua o indexador no portal.If you want to repeat this exercise or try a different AI enrichment walkthrough, delete the indexer in the portal. A exclusão do indexador redefine o contador de transações diárias gratuito para zero para o processamento dos Serviços Cognitivos.Deleting the indexer resets the free daily transaction counter back to zero for Cognitive Services processing.

Próximas etapasNext steps

Você pode criar conjuntos de habilidades usando o portal, o SDK do .NET ou a API REST.You can create skillsets using the portal, .NET SDK, or REST API. Para expandir ainda mais seus conhecimentos, experimente a API REST usando o Postman e mais dados de exemplo.To further your knowledge, try the REST API using Postman and more sample data.