Dicas para enriquecimento de IA na Pesquisa de IA do Azure

Este artigo contém dicas para ajudá-lo a começar a usar o enriquecimento de IA e os conjuntos de habilidades usados durante a indexação.

Dica 1: Comece simples e comece pequeno

O assistente de Importação de dados e o Assistente de importação e vetorização de dados no portal do Azure oferecem suporte ao enriquecimento de IA. Sem escrever nenhum código, você pode criar e examinar todos os objetos usados em um pipeline de enriquecimento: um índice, indexador, fonte de dados e conjunto de habilidades.

Outra maneira de começar simplesmente é criando uma fonte de dados com apenas um punhado de documentos ou linhas em uma tabela que são representativas dos documentos que serão indexados. Um pequeno conjunto de dados é a melhor maneira de aumentar a velocidade de encontrar e corrigir problemas. Execute sua amostra através do pipeline de ponta a ponta e verifique se os resultados atendem às suas necessidades. Quando estiver satisfeito com os resultados, você estará pronto para adicionar mais arquivos à sua fonte de dados.

Dica 2: Veja o que funciona mesmo se houver algumas falhas

Às vezes, uma pequena falha interrompe um indexador em suas trilhas. Isso é bom se você planeja corrigir problemas um por um. No entanto, convém ignorar um tipo específico de erro, permitindo que o indexador continue para que você possa ver quais fluxos estão realmente funcionando.

Para ignorar erros durante o desenvolvimento, defina maxFailedItems e maxFailedItemsPerBatch como -1 como parte da definição do indexador.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

Nota

Como prática recomendada, defina o maxFailedItems e maxFailedItemsPerBatch como 0 para cargas de trabalho de produção

Dica 3: Use a sessão de depuração para solucionar problemas

Debug session é um editor visual que mostra o gráfico de dependência de um conjunto de habilidades, entradas e saídas e definições. Ele funciona carregando um único documento do seu índice de pesquisa, com o indexador atual e a configuração do conjunto de habilidades. Em seguida, você pode executar todo o conjunto de habilidades, com escopo para um único documento. Em uma sessão de depuração, você pode identificar e resolver erros, validar alterações e confirmar alterações em um conjunto de habilidades pai. Para obter uma explicação passo a passo, consulte Tutorial: sessões de depuração.

Dica 4: O conteúdo esperado não aparece

Se você estiver faltando conteúdo, verifique se há documentos descartados no portal do Azure. Na página do serviço de pesquisa, abra Indexadores e veja a coluna Documentos bem-sucedidos . Clique no histórico de execução do indexador para revisar erros específicos.

Se o problema estiver relacionado ao tamanho do arquivo, você poderá ver um erro como este: "O nome> do arquivo blob<" tem o tamanho dos bytes de tamanho de arquivo, que excedem o tamanho> máximo para extração de documentos para sua camada de <serviço atual." Para obter mais informações sobre limites de indexador, consulte Limites de serviço.

Uma segunda razão para o conteúdo não aparecer pode estar relacionada a erros de mapeamento de entrada/saída. Por exemplo, um nome de destino de saída é "Pessoas", mas o nome do campo de índice é "pessoas" minúsculas. O sistema pode retornar 201 mensagens de sucesso para todo o pipeline para que você pense que a indexação foi bem-sucedida, quando na verdade um campo está vazio.

Dica 5: Estenda o processamento além do tempo máximo de execução

A análise de imagens é computacionalmente intensiva até mesmo para casos simples, portanto, quando as imagens são especialmente grandes ou complexas, os tempos de processamento podem exceder o tempo máximo permitido.

Para indexadores que têm conjuntos de habilidades, a execução do conjunto de habilidades é limitada a 2 horas para a maioria dos níveis. Se o processamento do conjunto de habilidades não for concluído dentro desse período, você pode colocar seu indexador em um cronograma recorrente de 2 horas para que o indexador retome o processamento de onde parou.

A indexação agendada é retomada no último documento em boas condições. Em uma programação recorrente, o indexador pode percorrer a lista de pendências da imagem durante uma série de horas ou dias, até que todas as imagens não processadas sejam processadas. Para obter mais informações sobre sintaxe de agenda, consulte Agendar um indexador.

Nota

Se um indexador estiver definido para uma determinada agenda, mas falhar repetidamente no mesmo documento repetidamente cada vez que for executado, o indexador começará a ser executado em um intervalo menos frequente (até o máximo de pelo menos uma vez a cada 24 horas) até progredir com êxito novamente. = Se você acredita ter corrigido qualquer problema que estava fazendo com que o indexador ficasse preso em um determinado ponto, você pode executar uma execução sob demanda do indexador e, se isso progredir com êxito, o indexador retornará ao intervalo de programação definido novamente.

Dica 6: Aumentar a taxa de transferência de indexação

Para indexação paralela, distribua seus dados em vários contêineres ou várias pastas virtuais dentro do mesmo contêiner. Em seguida, crie vários pares de fonte de dados e indexador. Todos os indexadores podem usar o mesmo conjunto de habilidades e gravar no mesmo índice de pesquisa de destino, para que seu aplicativo de pesquisa não precise estar ciente desse particionamento.

Consulte também