Guia de início rápido: vetorização integrada (visualização)

Artigo
04/04/2024

Importante

O assistente de importação e vetorização de dados está em pré-visualização pública em Termos de Utilização Suplementares. Ele tem como alvo a API REST 2023-10-01-Preview.

Introdução à vetorização integrada (visualização) usando o assistente Importar e vetorizar dados no portal do Azure. Este assistente chama um modelo de incorporação de texto do Azure OpenAI para vetorizar conteúdo durante a indexação e para consultas.

Nesta versão de pré-visualização do assistente:

Os dados de origem são apenas blob, usando o modo de análise padrão (um documento de pesquisa por blob).
O esquema de índice não é configurável. Os campos de origem incluem content (fragmentados e vetorizados), metadata_storage_name para título, e um metadata_storage_path para a chave do documento, que é preenchida como parent_id no Índice.
A vetorização é somente o Azure OpenAI (text-embedding-ada-002), usando o algoritmo HNSW com padrões.

O fragmento não é configurável. As configurações efetivas são:

textSplitMode: "pages",
maximumPageLength: 2000,
pageOverlapLength: 500

Pré-requisitos

Uma subscrição do Azure. Crie um gratuitamente.
Azure AI Search, em qualquer região e em qualquer camada. A maioria dos serviços existentes suporta pesquisa vetorial. Para um pequeno subconjunto de serviços criados antes de janeiro de 2019, um índice contendo campos vetoriais falha na criação. Nessa situação, um novo serviço deve ser criado.
Ponto de extremidade do Azure OpenAI com uma implantação de text-embedding-ada-002 e uma chave de API ou permissões de Usuário OpenAI dos Serviços Cognitivos para carregar dados. Você só pode escolher um vetorizador nesta visualização, e o vetorizador deve ser o Azure OpenAI.
Conta de Armazenamento do Azure, desempenho padrão (v2 de uso geral), camadas de acesso Hot and Cool.
Blobs que fornecem conteúdo de texto, apenas documentos não estruturados e metadados. Nesta visualização, sua fonte de dados deve ser blobs do Azure.
Permissões de leitura no Armazenamento do Azure. Uma cadeia de conexão de armazenamento que inclui uma chave de acesso oferece acesso de leitura ao conteúdo de armazenamento. Se, em vez disso, você estiver usando logins e funções do Microsoft Entra, verifique se a identidade gerenciada do serviço de pesquisa tem permissões de Leitor de Dados de Blob de Armazenamento.
Todos os componentes (fonte de dados e ponto de extremidade de incorporação) devem ter acesso público habilitado para que os nós do portal possam acessá-los. Caso contrário, o assistente falhará. Depois que o assistente é executado, firewalls e pontos de extremidade privados podem ser habilitados nos diferentes componentes de integração para segurança. Se os pontos de extremidade privados já estiverem presentes e não puderem ser desabilitados, a opção alternativa é executar o respetivo fluxo de ponta a ponta de um script ou programa de uma Máquina Virtual dentro da mesma VNET que o ponto de extremidade privado. Aqui está um exemplo de código Python para vetorização integrada. No mesmo repositório GitHub estão exemplos em outras linguagens de programação.

Verificar o espaço

Muitos clientes começam com o serviço gratuito. O nível gratuito é limitado a três índices, três fontes de dados, três conjuntos de habilidades e três indexadores. Certifique-se de que tem espaço para itens adicionais antes de começar. Este guia de início rápido cria um de cada objeto.

Verificar a classificação semântica

Este assistente suporta a classificação semântica, mas apenas no escalão Básico e superior, e apenas se a classificação semântica já estiver ativada no seu serviço de pesquisa. Se estiver a utilizar um escalão faturável, verifique se a classificação semântica está ativada.

Preparar dados de exemplo

Esta seção aponta para os dados que funcionam para este início rápido.

Entre no portal do Azure com sua conta do Azure e vá para sua conta de Armazenamento do Azure.
No painel de navegação, em Armazenamento de Dados, selecione Contêineres.
Crie um novo contêiner e, em seguida, carregue os documentos PDF do plano de saúde usados para este início rápido.
Antes de deixar a conta de Armazenamento do Azure no portal do Azure, conceda permissões ao Leitor de Dados de Blob de Armazenamento no contêiner, supondo que você queira acesso baseado em função. Ou obtenha uma cadeia de conexão para a conta de armazenamento na página Teclas de acesso.

Obter detalhes de conexão para o Azure OpenAI

O assistente precisa de um ponto de extremidade, uma implantação de text-embedding-ada-002 e uma chave de API ou uma identidade gerenciada de serviço de pesquisa com permissões de usuário OpenAI dos Serviços Cognitivos.

Entre no portal do Azure com sua conta do Azure e vá para seu recurso do Azure OpenAI.
Em Chaves e gerenciamento, copie o ponto de extremidade.
Na mesma página, copie uma chave ou marque Controle de acesso para atribuir membros da função à identidade do seu serviço de pesquisa.
Em Implantações de modelo, selecione Gerenciar implantações para abrir o Azure AI Studio. Copie o nome da implantação de text-embedding-ada-002.

Iniciar o assistente

Para começar, navegue até o serviço Azure AI Search no portal do Azure e abra o assistente Importar e vetorizar dados .

Entre no portal do Azure com sua conta do Azure e vá para seu serviço Azure AI Search.
Na página Visão geral, selecione Importar e vetorizar dados.

Ligar aos dados

A próxima etapa é conectar-se a uma fonte de dados para usar no índice de pesquisa.

No assistente Importar e vetorizar dados na guia Conectar aos seus dados, expanda a lista suspensa Fonte de Dados e selecione Armazenamento de Blob do Azure.
Especifique a assinatura do Azure, a conta de armazenamento e o contêiner que fornece os dados.
Para a conexão, forneça uma cadeia de conexão de acesso total que inclua uma chave ou especifique uma identidade gerenciada que tenha permissões de Leitor de Dados de Blob de Armazenamento no contêiner.
Especifique se deseja a deteção de exclusão:
Selecione Next: Vectorize and Enrich para continuar.

Enriqueça e vetorize seus dados

Nesta etapa, especifique o modelo de incorporação usado para vetorizar dados em partes.

Forneça a assinatura, o ponto de extremidade, a chave da API e o nome da implantação do modelo.
Opcionalmente, você pode quebrar imagens binárias (por exemplo, arquivos de documentos digitalizados) e usar OCR para reconhecer texto.
Opcionalmente, você pode adicionar classificação semântica para reclassificar os resultados no final da execução da consulta, promovendo as correspondências semanticamente mais relevantes para o topo.
Especifique um cronograma de execução para o indexador.
Selecione Avançar: Criar e revisar para continuar.

Executar o assistente

Esta etapa cria os seguintes objetos:

Conexão da fonte de dados com seu contêiner de blob.
Índice com campos vetoriais, vetorizadores, perfis vetoriais, algoritmos vetoriais. Você não será solicitado a criar ou modificar o índice padrão durante o fluxo de trabalho do assistente. Os índices estão em conformidade com a versão 2023-10-01-Preview.
Conjunto de habilidades com habilidade de divisão de texto para fragmentação e AzureOpenAIEmbeddingModel para vetorização.
Indexador com mapeamentos de campo e mapeamentos de campo de saída (se aplicável).

Se você receber erros, revise as permissões primeiro. Você precisa do Usuário OpenAI dos Serviços Cognitivos no Azure OpenAI e do Leitor de Dados de Blob de Armazenamento no Armazenamento do Azure. Seus blobs devem ser não estruturados (os dados em partes são extraídos da propriedade "content" do blob).

Ver resultados

O explorador de pesquisa aceita cadeias de texto como entrada e, em seguida, vetoriza o texto para a execução da consulta vetorial.

Selecione o seu índice.
Opcionalmente, selecione Opções de consulta e oculte valores de vetor nos resultados da pesquisa. Esta etapa facilita a leitura dos resultados da pesquisa.
Selecione o modo de exibição JSON para que você possa inserir texto para sua consulta vetorial no parâmetro text vetor query.

Este assistente oferece uma consulta padrão que emite uma consulta vetorial no campo "vetor", retornando os 5 vizinhos mais próximos. Se você optou por ocultar valores de vetor, sua consulta padrão inclui uma instrução "select" que exclui o campo de vetor dos resultados da pesquisa.
```
{
   "select": "chunk_id,parent_id,chunk,title",
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}
```
Substitua o texto "*" por uma pergunta relacionada aos planos de saúde, como "qual plano tem a menor franquia".
Selecione Pesquisar para executar a consulta.

Você verá 5 correspondências, onde cada documento é um pedaço do PDF original. O campo de título mostra de qual PDF vem o bloco.

Para ver todas as partes de um documento específico, adicione um filtro para o campo de título de um PDF específico:

{
   "select": "chunk_id,parent_id,chunk,title",
   "filter": "title eq 'Benefit_Options.pdf'",
   "count": true,
   "vectorQueries": [
       {
          "kind": "text",
          "text": "*",
          "k": 5,
          "fields": "vector"
       }
    ]
}

Limpeza

O Azure AI Search é um recurso faturável. Se já não for necessário, elimine-o da sua subscrição para evitar cobranças.

Próximos passos

Este guia de início rápido apresentou o assistente Importar e vetorizar dados que cria todos os objetos necessários para vetorização integrada. Se você quiser explorar cada etapa em detalhes, tente uma amostra de vetorização integrada.