¿Qué es un asistente de voz?

Artículo
01/22/2024

Al usar asistentes para voz con el servicio Voz, los desarrolladores pueden crear interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias. El servicio de asistente para voz proporciona una interacción rápida y confiable entre un dispositivo y la implementación de un asistente.

Elección de una solución de asistente

El primer paso para crear un asistente para voz es decidir qué quiere que haga. El servicio Voz proporciona varias soluciones complementarias para diseñar las interacciones de los asistentes. Es posible que quiera que la aplicación admita una conversación abierta con frases como "Quiero ir a Seattle" o "¿Qué tipo de pizza puedo pedir?". Para mayor flexibilidad y versatilidad, puede agregar funcionalidades de entrada y salida de voz a un bot mediante el Servicio de Bot de Azure AI con el canal Direct Line Speech.

Si aún no está seguro de lo que quiere que haga el asistente, se recomienda Direct Line Speech como mejor opción. Ofrece integración con un completo conjunto de herramientas y ayudas de creación, como la solución Virtual Assistant y la plantilla de empresa y el servicio de QnA Maker para crear patrones comunes y usar los orígenes de conocimiento existentes.

Arquitectura de referencia para crear un asistente para voz con el SDK de Voz

Conceptual diagram of the voice assistant orchestration service flow.

Características principales

Tanto si elige Direct Line Speech como otra solución para crear sus interacciones con el asistente, puede usar un amplio conjunto de características de personalización para personalizar el asistente según la marca, el producto y la personalidad.

Category	Características
Palabra clave personalizada	Los usuarios pueden iniciar conversaciones con los asistentes mediante una palabra clave personalizada como "Hola, Contoso". Una aplicación hace esto con un motor de palabras clave personalizado en el SDK de Voz, que puede configurar yendo a Introducción a las palabras clave personalizadas. Los asistentes de voz pueden utilizar la comprobación de palabras clave del lado del servicio para mejorar la precisión de la activación de palabras clave (frente al uso del dispositivo por sí solo).
Speech to Text	Los asistentes de voz convierten audio en tiempo real en texto reconocido mediante la conversión de voz en texto del servicio Voz. Este texto está disponible, a medida que se escribe, tanto para la implementación del asistente como para la aplicación cliente.
Texto a voz	Las respuestas textuales desde el asistente se sintetizan mediante texto a voz del servicio Voz. A continuación, esta síntesis se pone a disposición de la aplicación cliente como una secuencia de audio. Microsoft ofrece la posibilidad de crear su propio Texto a voz neuronal (TTS neuronal) personalizado de alta calidad que le pone voz a su marca.

Introducción a los asistentes para voz

Ofrecemos el siguiente artículo de inicio rápido diseñado para que ejecute código en menos de 10 minutos: Inicio rápido: Creación de un asistente de voz personalizado mediante Direct Line Speech.

Tutoriales y código de ejemplo

El código de ejemplo para crear un asistente de voz está disponible en GitHub. Estos ejemplos abarcan la aplicación cliente para conectarse al asistente en varios lenguajes de programación conocidos.

Personalización

Los asistentes para voz que se crean con el servicio Voz pueden usar una gama completa de opciones de personalización.

Nota

Las opciones de personalización varían según el idioma y la configuración regional. Para obtener más información, consulte Idiomas admitidos.