Inserções multimodais (versão 4.0)

Artigo
02/23/2024

A inserção multimodal é o processo de geração de uma representação numérica de uma imagem que captura os respectivos atributos e características em um formato de vetor. Esses vetores codificam o conteúdo e o contexto de uma imagem de forma compatível com a pesquisa de texto no mesmo espaço de vetor.

Os sistemas de recuperação de imagem costumam usar recursos extraídos das imagens, como rótulos de conteúdo, marcas e descritores de imagem, para comparar imagens e classificá-las por similaridade. No entanto, a pesquisa de similaridade de vetor está ganhando mais popularidade devido a uma série de benefícios em relação à pesquisa tradicional baseada em palavra-chave e se tornando um componente vital nos serviços populares de pesquisa de conteúdo.

Qual é a diferença entre a pesquisa de vetor e a pesquisa baseada em palavra-chave?

A pesquisa de palavra-chave é o método mais básico e tradicional de recuperação de informações. Nesta abordagem, o mecanismo de pesquisa procura a correspondência exata das palavras-chave ou frases inseridas pelo usuário na consulta de pesquisa e a compara com os rótulos e marcas fornecidos para as imagens. Depois, o mecanismo de pesquisa retorna imagens que contêm essas palavras-chave exatas como marcas de conteúdo e rótulos de imagem. A pesquisa de palavras-chave depende muito da capacidade do usuário de usar termos de pesquisa relevantes e específicos.

A busca em vetores procura grandes coleções de vetores no espaço de alta dimensão para localizar vetores semelhantes a uma determinada consulta. A pesquisa de vetor procura semelhanças semânticas capturando o contexto e o significado da consulta de pesquisa. Essa abordagem geralmente é mais eficiente do que as técnicas tradicionais de recuperação de imagem, pois pode reduzir o espaço de pesquisa e aumentar a precisão dos resultados.

Aplicativos de negócios

A inserção multimodal tem uma variedade de aplicações em diferentes campos, incluindo:

Gerenciamento de ativos digitais: a inserção multimodal pode ser usada para gerenciar grandes coleções de imagens digitais, como em museus, arquivos ou galerias online. Os usuários podem pesquisar imagens com base em recursos visuais e recuperar aquelas que correspondem aos critérios.
Segurança e vigilância: a vetorização pode ser usada em sistemas de segurança e vigilância para pesquisar imagens com base em recursos ou padrões específicos, como no rastreamento de objetos e pessoas ou na detecção de ameaças.
Recuperação de imagem forense: a vetorização pode ser usada em investigações forenses para pesquisar imagens com base no conteúdo visual ou em metadados, como em casos de crimes cibernéticos.
Comércio eletrônico: a vetorização pode ser usada em aplicativos de compras online para pesquisar produtos semelhantes com base em recursos ou descrições ou fornecer recomendações com base em compras anteriores.
Moda e design: a vetorização pode ser usada em moda e design para pesquisar imagens com base em recursos visuais, como cor, padrão ou textura. Isso pode ajudar designers ou varejistas a identificar produtos ou tendências semelhantes.

Cuidado

A inserção multimodal não foi projetada para analisar funções de diagnóstico ou padrões de doenças em imagens médicas. Não use a inserção multimodal para fins médicos.

O que são inserções de vetor?

As inserções de vetor são uma forma de representar o conteúdo, texto ou imagens, como vetores de números reais em um espaço de alta dimensão. As inserções de vetor geralmente são aprendidas com grandes quantidades de dados textuais e visuais usando algoritmos de machine learning , como redes neurais.

Cada dimensão do vetor corresponde a um recurso ou atributo diferente do conteúdo, como significado semântico, função sintática ou contexto, no qual ele normalmente aparece. Na Visão de IA do Azure, as inserções de vetor de imagem e texto têm 1024 dimensões.

Importante

As inserções de vetor só poderão ser comparadas e terem uma correspondência se forem do mesmo tipo de modelo. As imagens vetorizadas por um modelo não poderão ser pesquisadas por meio de um modelo diferente. A API da Análise de Imagem mais recente oferece dois modelos, a versão 2023-04-15, que dá suporte à pesquisa de texto em vários idiomas, e ao modelo herdado 2022-04-11, que só dá suporte ao inglês.

Como ele funciona?

Veja a seguir as principais etapas do processo de recuperação de imagem com o uso de inserções multimodais.

Diagram of image retrieval process.

Vetorizar imagens e texto: as APIs de inserções multimodais, VectorizeImage e VectorizeText, podem ser usadas para extrair vetores de recurso de uma imagem ou um texto, respectivamente. As APIs retornam um só vetor de recurso que representa toda a entrada.

Observação

A inserção multimodal não faz nenhum processamento biométrico de rostos humanos. Para detecção e identificação facial, consulte o serviço de Detecção Facial de IA do Azure.
Medir similaridade: os sistemas de pesquisa de vetor normalmente usam métricas de distância, como distância de cosseno ou distância euclidiana, para comparar vetores e classificá-los por similaridade. A demonstração do Vision Studio usa a distância de cosseno para medir a similaridade.
Recuperar imagens: use os N principais vetores semelhantes à consulta de pesquisa e recupere as imagens correspondentes a esses vetores de fototeca para fornecer como resultado final.

Classificação de relevância

Os serviços de recuperação de imagem e vídeo retornam um campo chamado "relevância". O termo "relevância" indica uma medida de pontuação de similaridade entre uma consulta e inserções de imagem ou quadro de vídeo. A pontuação de relevância é composta por duas partes:

A similaridade de cosseno (que se enquadra no intervalo de [0,1]) entre as inserções de imagem ou quadro de vídeo.
Uma pontuação de metadados, que reflete a semelhança entre a consulta e os metadados associados à imagem ou quadro de vídeo.

Importante

A pontuação de relevância é uma boa medida para classificar resultados como imagens ou quadros de vídeo em relação a uma única consulta. No entanto, a pontuação de relevância não pode ser comparada com precisão entre consultas. Portanto, não é possível mapear facilmente a pontuação de relevância para um nível de confiança. Também não é possível criar trivialmente um algoritmo de limite para eliminar resultados irrelevantes com base apenas na pontuação de relevância.

Requisitos de entrada

Entrada de imagem

O tamanho do arquivo da imagem deve ser menor que 20 MB (megabytes)
As dimensões da imagem devem ser maiores que 10 x 10 pixels e menores que 16.000 x 16.000 pixels

Entrada de texto

A cadeia de caracteres de texto deve estar entre uma palavra (inclusive) e 70 palavras.

Próximas etapas

Habilite as inserções multimodais no serviço de pesquisa e siga as etapas para gerar inserções de vetor para texto e imagens.

Chamar as APIs de inserções multimodais

Compartilhar via