Sugerencias para el enriquecimiento con IA en Azure AI Search

Artículo
02/19/2024

En este artículo se incluyen sugerencias para ayudarle a empezar a trabajar con el enriquecimiento con IA y los conjuntos de aptitudes que se usan durante la indexación.

Sugerencia 1: empezar por lo más simple y sencillo

Tanto el Asistente para importación de datos como el Asistente para importación y vectorización de datos en Azure Portal admiten el enriquecimiento con IA. Sin escribir ningún código, puede crear y examinar todos los objetos usados en una canalización de enriquecimiento: un índice, indexador, origen de datos y conjunto de aptitudes.

Otra manera de empezar de forma sencilla es creando un origen de datos con solo un puñado de documentos o filas en una tabla que sean representativas de los documentos que se indexarán. Un conjunto de datos pequeño es la mejor manera de aumentar la velocidad de búsqueda y corrección de problemas. Ejecute el ejemplo a través de la canalización de un extremo a otro y compruebe que los resultados satisfacen sus necesidades. Una vez que esté satisfecho con los resultados, está listo para agregar más archivos a la fuente de datos.

Recomendación 2: confirme los elementos que funcionan incluso si hay algunos errores

A veces, un pequeño error detiene el proceso del indexador. Esto no supone ningún problema si planea solucionar los errores uno por uno. Sin embargo, es posible que quiera ignorar un tipo particular de error, permitiendo así que el indexador continúe con el proceso para poder ver qué flujos están funcionando realmente.

Para pasar por alto los errores durante el desarrollo, establezca maxFailedItems y maxFailedItemsPerBatch como -1 como parte de la definición del indexador.

{
  // rest of your indexer definition
   "parameters":
   {
      "maxFailedItems":-1,
      "maxFailedItemsPerBatch":-1
   }
}

Nota:

Como procedimiento recomendado, establezca el maxFailedItems y el maxFailedItemsPerBatch en 0 para cargas de trabajo de producción

Sugerencia 3: usar la sesión de depuración para solucionar problemas

La sesión de depuración es un editor visual que muestra el gráfico de dependencias, las entradas y las salidas de un conjunto de aptitudes, así como las definiciones. Funciona cargando un único documento desde el índice de búsqueda, con la configuración actual del indexador y del conjunto de aptitudes. A continuación, puede ejecutar todo el conjunto de aptitudes, limitado a un único documento. Dentro de una sesión de depuración, puede identificar y resolver errores, validar los cambios y confirmarlos en un conjunto de aptitudes primario. Para ver un tutorial, consulte Tutorial: depuración de sesiones.

Sugerencia 4: El contenido esperado no aparece

Si falta contenido, busque documentos eliminados en Azure Portal. En la página del servicio de búsqueda, abra indexadores y examine la columna Documentos obtenidos. Haga clic en el historial de ejecución del indexador para revisar errores específicos.

Si el problema está relacionado con el tamaño del archivo, es posible que vea un error como este: "El blob <file-name> tiene un tamaño de <file-size> bytes, lo cual excede el tamaño máximo para la extracción de documentos de su nivel de servicio actual". Para obtener más información, consulte Límites del servicio.

Una segunda razón por la que el contenido no aparece, puede deberse errores de asignación de entradas y salidas relacionadas. Por ejemplo, el nombre de destino de salida es "Personas", pero el nombre del campo de índice es "personas" en minúsculas. El sistema puede devolver 201 mensajes de éxito de toda la canalización y hacerle creer que la indexación tuvo éxito, cuando en realidad uno de los campos está vacío.

Sugerencia 5: ampliar el procesamiento más allá del tiempo de ejecución máximo

El análisis de imágenes es un proceso intensivo a nivel computacional, incluso cuando se trata de casos simples; debido a ello, cuando las imágenes son especialmente grandes o complejas, los tiempos de procesamiento pueden exceder el tiempo máximo permitido.

En el caso de los indexadores que tienen conjuntos de aptitudes, la ejecución del conjunto de aptitudes se limita a 2 horas para la mayoría de los niveles. Si el procesamiento de conjuntos de aptitudes no se completa en ese período, puede colocar el indexador en una programación periódica de 2 horas para que el indexador recoja el procesamiento donde se dejó.

La indexación programada se reanuda en el último documento correcto conocido. En una programación recurrente, el indizador puede abrirse camino a través de las imágenes pendientes durante una serie de horas o días, hasta que se procesen todas aquellas imágenes que no estén procesadas. Para obtener más información acerca de la sintaxis de programación, consulte Programación de un indexador.

Nota:

Si un indexador se establece en una programación determinada pero se produce repetidamente un error en el mismo documento una y otra vez cada vez se ejecuta, el indexador comenzará a ejecutarse en un intervalo menos frecuente (hasta un máximo de al menos una vez cada 24 horas) hasta que vuelva a avanzar correctamente. = Si cree que ha corregido el problema que provocaba que el indexador se bloqueara en un punto determinado, puede realizar una ejecución a petición del indexador y, si eso progresa correctamente, el indexador volverá a su intervalo de programación establecido de nuevo.

Sugerencia 6: aumentar del rendimiento de la indexación

Para realizar una indexación paralela, distribuya los datos en varios contenedores o carpetas virtuales múltiples dentro del mismo contenedor. A continuación, cree varios pares de orígenes de datos e indexadores. Todos los indexadores pueden usar el mismo conjunto de aptitudes y escribir en el mismo índice de búsqueda de destino, por lo que la aplicación de búsqueda no necesita conocer esta partición.