Configuración del comportamiento de aprendizaje de Personalizer
El modo de aprendiz le proporciona confianza en el servicio Personalizer y sus capacidades de Machine Learning, y garantiza que el servicio recibe información de la que se puede aprender, sin poner en peligro el tráfico en línea.
Importante
El modo de aprendiz (en versión preliminar pública) solo está disponible con el plan de tarifa E0. Consulte los precios para obtener detalles. Puede seleccionar el nivel E0 en la creación de recursos o actualizar a E0 desde la pestaña Suscripciones de Azure Portal. Si está en otro nivel y actualiza a E0, sus recursos de Personalizer existentes se migrarán automáticamente al nivel E0.
Configuración del modo de aprendiz
Inicie sesión en Azure Portal para buscar su recurso de Personalizer.
En la página Configuración, en la pestaña Comportamiento de aprendizaje, seleccione Return baseline action, learn as an apprentice (Volver a la acción de línea de base, aprender en modo de aprendiz) y, a continuación, seleccione Guardar.

Cambios en la aplicación existente
La aplicación existente no debe cambiar el modo en que actualmente selecciona las acciones que se van a mostrar o cómo la aplicación determina el valor recompensa de esa acción. El único cambio en la aplicación podría ser el orden de las acciones enviadas a Rank API de Personalizer. La acción que se muestra actualmente en la aplicación se envía como la primera acción en la lista de acciones. Rank API usa esta primera acción para entrenar el modelo de Personalizer.
Configuración de la aplicación para llamar a Rank API
Para agregar Personalizer a la aplicación, debe llamar a Rank API y Reward API.
Agregue la llamada a Rank API después del punto de la lógica de aplicación existente en el que determine la lista de acciones y sus características. La primera acción de la lista de acciones debe ser la acción seleccionada por la lógica existente.
Configure el código para mostrar la acción asociada con el id. de la acción de recompensa de Rank API.
Configuración de la aplicación para llamar a Reward API
Use la lógica de negocios existente para calcular la recompensa de la acción mostrada. El valor debe estar en un intervalo de 0 a 1. Envíe esta recompensa a Personalizer con Reward API. El valor de recompensa no se espera inmediatamente y se puede retrasar cierto tiempo en función de la lógica de negocios.
Si no se devuelve la recompensa en el Tiempo de espera de recompensa configurado, se usará al recompensa predeterminada en su lugar.
Evaluación del modo de aprendiz
En Azure Portal, en la página Evaluaciones del recurso de Personalizer, revise el Rendimiento actual del comportamiento de aprendizaje.

El modo de aprendiz proporciona las siguientes métricas de evaluación:
- Línea de base: promedio de recompensa: Promedio de recompensas del valor predeterminado de la aplicación (línea de base).
- Personalizer: promedio de recompensa. Promedio de recompensas totales que Personalizer puede haber alcanzado.
- Proporción de logros de recompensas en los 1000 eventos más recientes. Proporción de recompensas de línea de base y de Personalizer, normalizados con los últimos 1000 eventos.
Cambio del comportamiento al modo en línea
Cuando determine que Personalizer está entrenado con una media acumulada del 75-85 %, el modelo está listo para cambiar al modo en línea.
En Azure Portal para el recurso de Personalizer, en la página Configuración, en la pestaña Comportamiento de aprendizaje, seleccione Devolver mejor acción y, a continuación, seleccione Guardar.
No es necesario realizar ningún cambio en las llamadas a Rank API y Reward API.