Inicio rápido: Creación de un almacén de conocimiento en Azure Portal

En este inicio rápido, se crea un almacén de conocimiento que sirve como repositorio para los resultados generados a partir de un proceso de enriquecimiento de la IA en Azure AI Search. Un almacén de conocimiento hace que el contenido generado esté disponible en Azure Storage para cargas de trabajo distintas de la búsqueda.

En primer lugar, configure algunos datos de muestra en Azure Storage. A continuación, ejecute el asistente Importar datos para crear una canalización de enriquecimiento que también genere un almacén de conocimientos. El almacén de conocimientos contiene contenido original extraído del origen de datos (reseñas de clientes de un hotel), además de contenido generado por IA que incluye una etiqueta de sentimiento, extracción de frases clave y traducción de texto de comentarios de clientes que no hablan inglés.

Requisitos previos

Antes de comenzar, tiene que cumplir los siguientes requisitos previos:

En este inicio rápido también se usa Azure AI Services para el enriquecimiento con IA. Debido a que la carga de trabajo es tan pequeña, los servicios de Azure AI se usan en segundo plano para el procesamiento gratuito de hasta 20 transacciones. Esto significa que puede completar este ejercicio sin tener que crear un recurso adicional de servicios múltiples en Azure AI.

Inicio del asistente

  1. Inicie sesión en Azure Portal con su cuenta de Azure.

  2. Busque su servicio de búsqueda y, en la página de información general, seleccione Importar datos en la barra de comandos para crear un almacén de información en cuatro pasos.

    Screenshot of the Import data command

Paso 1: Creación de un origen de datos

Dado que los datos son varias filas en un archivo CSV, establezca el modo de análisis para obtener un documento de búsqueda para cada fila.

  1. En Conectarse a los datos propios, seleccione Azure Blob Storage.

  2. En Nombre, escriba "hotel-reviews-ds".

  3. Para los Datos que se extraerán escoja el valor Contenido y metadatos.

  4. En Modo de análisis, seleccione Texto delimitado y, a continuación, active la casilla La primera línea contiene encabezado. Asegúrese de que el Carácter delimitador es una coma (,).

  5. En Cadena de conexión, elija una conexión existente si la cuenta de almacenamiento está en la misma suscripción. De lo contrario, pegue la cadena de conexión en la cuenta de Azure Storage.

    Una cadena de conexión puede tener acceso completo, con el formato siguiente: DefaultEndpointsProtocol=https;AccountName=<YOUR-ACCOUNT-NAME>;AccountKey=<YOUR-ACCOUNT-KEY>;EndpointSuffix=core.windows.net

    O bien, una cadena de conexión puede hacer referencia a una identidad administrada, suponiendo que está configurada y asignada a un rol en Azure Storage: ResourceId=/subscriptions/{YOUR-SUBSCRIPTION-ID}/resourceGroups/{YOUR-RESOURCE-GROUP-NAME}/providers/Microsoft.Storage/storageAccounts/{YOUR-ACCOUNT-NAME};

  6. En Contenedores, escriba el nombre del contenedor de blobs que contiene los datos ("hotel-reviews").

    La página debe tener un aspecto similar a la siguiente captura de pantalla.

    Screenshot of data source definition

  7. Continúe en la siguiente página.

Paso 2: Adición de aptitudes

En este paso del asistente, agregue aptitudes para el enriquecimiento con IA. Los datos de origen se componen de reseñas de clientes en inglés y francés. Las aptitudes pertinentes para este conjunto de datos incluyen la extracción de frases clave, la detección de opiniones y la traducción de texto. En un paso posterior, estos enriquecimientos se "proyectan" en un almacén de conocimientos como tablas Azure.

  1. Expanda Asociación de servicios de Azure AI. De forma predeterminada, está seleccionada la opción Gratis (enriquecimientos limitados) . Puede usar este recurso porque el número de registros de HotelReviews-Free.csv es 19, y este recurso gratuito permite hasta 20 transacciones al día.

  2. Expanda Agregar enriquecimientos.

  3. En Nombre del conjunto de aptitudes, escriba "hotel-reviews-ss".

  4. En el campo Datos de origen, seleccione reviews_text.

  5. En Nivel de granularidad de enriquecimiento, seleccione Páginas (fragmentos de 5000 caracteres) .

  6. En Conocimientos cognitivos de texto, seleccione las siguientes aptitudes:

    • Extracción de frases clave
    • Traducir texto
    • Detección de idioma
    • Detección de opiniones

    La página debería ser similar a la siguiente captura de pantalla:

    Screenshot of the skillset definition

  7. Desplácese y expanda Guardar enriquecimientos en el almacén de conocimiento.

  8. Seleccione Elegir una conexión existente y, después, seleccione una cuenta de Azure Storage. Aparece la página Contenedores para que pueda crear un contenedor para proyecciones. Se recomienda adoptar una convención de nomenclatura de prefijos, como "kstore-hotel-reviews" para distinguir entre el contenido de origen y el contenido del almacén de conocimiento.

  9. Al volver al Asistente para la importación de datos, seleccione las siguientes proyecciones de tabla de Azure. El asistente siempre ofrece la proyección Documentos. Se ofrecen otras proyecciones en función de los conocimientos que seleccione (como Frases clave), o de la granularidad del enriquecimiento (Páginas):

    • Documentos
    • Páginas
    • Frases clave

    En la captura de pantalla siguiente se muestran las selecciones de proyecciones de tablas del asistente.

    Screenshot of the knowledge store definition

  10. Continúe en la siguiente página.

Paso 3: Configuración del índice

En este paso del asistente, configure un índice para las consultas de búsqueda de texto completo opcionales. No necesita un índice de búsqueda para un almacén de conocimientos, pero el indexador requiere uno para funcionar.

En este paso, el asistente muestrea su origen de datos para inferir campos y tipos de datos. Solo tiene que seleccionar los atributos para el comportamiento deseado. Por ejemplo, el atributo Retrievable permite que el servicio de búsqueda devuelva un valor de campo, mientras que el atributo Searchable permite la búsqueda de texto completo en el campo.

  1. En Nombre del índice, escriba "hotel-reviews-idx".

  2. En el caso de los atributos, acepte las selecciones predeterminadas: Retrievable (Recuperable) y Searchable (Permite búsquedas) para los nuevos campos que crea la canalización.

    El índice debe tener un aspecto similar al de la siguiente imagen. Dado que la lista es larga, no todos los campos están visibles en la imagen.

    Screenshot of the index definition

  3. Continúe en la siguiente página.

Paso 4: Configuración y ejecución del indexador

En este paso del asistente, configure un indexador que reúna la fuente de datos, el conjunto de habilidades y el índice que definió en los pasos anteriores del asistente.

  1. En Nombre, escriba "hotel-reviews-idxr".

  2. En Programación, mantenga el valor predeterminado Una vez.

  3. Seleccione Enviar para ejecutar el indexador. La extracción de datos, la indexación y la aplicación de aptitudes cognitivas se producen en este paso.

Paso 5: Comprobación del estado

En la página Información general, abra la pestaña Indexadores en el medio de la página y, luego, seleccione hotels-reviews-idxr. En un minuto o dos, el estado debería avanzar de "En curso" a "Correcto" sin errores ni advertencias.

Comprobación de tablas en Azure Portal

  1. En Azure Portal, abra la cuenta de almacenamiento que usó para crear el almacén de conocimiento.

  2. En el panel de navegación izquierdo de la cuenta de almacenamiento, seleccione Storage explorador (versión preliminar) para ver las nuevas tablas.

    Debería ver tres tablas, una para cada proyección que se ofrecía en la sección "Guardar enriquecimientos" de la página "Agregar enriquecimientos".

    • "hotelReviewssDocuments" contiene todos los nodos de primer nivel del árbol de enriquecimiento de un documento que no son colecciones.

    • "hotelReviewssKeyPhrases" contiene una larga lista con solo las frases clave extraídas de todas las reseñas. Las habilidades que generan colecciones (matrices), como frases clave y entidades, envían la salida a una tabla independiente.

    • "hotelReviewssPages" contiene campos enriquecidos creados en cada página que se ha dividido del documento. En este conjunto de aptitudes y origen de datos, los enriquecimientos en el nivel de página constan de etiquetas de opinión y texto traducido. Se crea una tabla de páginas (o una tabla de oraciones si especifica ese nivel concreto de granularidad) al elegir la granularidad de "páginas" en la definición del conjunto de aptitudes.

Todas estas tablas contienen columnas de identificador para admitir relaciones de tabla en otras herramientas y aplicaciones. Al abrir una tabla, desplácese más allá de estos campos para ver los campos de contenido que ha agregado la canalización.

En este inicio rápido, la tabla de "hotelReviewssPages" debe ser similar a la captura de pantalla siguiente:

Screenshot of the generated tables in Storage Browser

Limpieza

Cuando trabaje con su propia suscripción, es una buena idea al final de un proyecto identificar si todavía se necesitan los recursos que ha creado. Los recursos que se dejan en ejecución pueden costarle mucho dinero. Puede eliminar los recursos de forma individual o eliminar el grupo de recursos para eliminar todo el conjunto de recursos.

Puede encontrar y administrar recursos en el portal, mediante el vínculo Todos los recursos o Grupos de recursos en el panel de navegación izquierdo.

Si está usando un servicio gratuito, recuerde que está limitado a tres índices, indexadores y orígenes de datos. Puede eliminar elementos individuales en el portal para mantenerse por debajo del límite.

Sugerencia

Si desea repetir este ejercicio o realizar otro tutorial de enriquecimiento de inteligencia artificial, elimine el indexador hotel-reviews-idxr y los objetos relacionados para volver a crearlos. La eliminación del indexador restablece el contador de transacciones diarias gratis a cero.

Pasos siguientes

Ahora que ha visto una introducción a un almacén de conocimiento, puede echar un vistazo más en profundidad a cada paso; para ello, cambie al tutorial de la API REST. Las tareas que el asistente controla internamente se explican en el tutorial de REST.