¿Qué es Custom Speech?
Habla personalizada permite evaluar y mejorar la precisión de la conversión de voz en texto de Microsoft para las aplicaciones y productos. Siga los vínculos de este artículo para empezar a crear una experiencia personalizada de conversión de voz a texto.
¿Qué incluye Custom Speech?
Para utilizar Custom Speech, necesitará una cuenta de Azure y una suscripción al Servicio de voz. Una vez que tenga una cuenta, podrá preparar los datos, entrenar y probar sus modelos, inspeccionar la calidad del reconocimiento, evaluar la precisión y, en última instancia, implementar y utilizar el modelo de conversión de voz a texto personalizado.
Este diagrama resalta las partes que componen el portal de Habla personalizada de Speech Studio. Use los siguientes vínculos para obtener más información sobre cada paso.

Suscripción y creación de un proyecto. Cree una cuenta de Azure y suscríbase al servicio de voz. Esta suscripción unificada proporciona acceso a la conversión de voz a texto, la conversión de texto a voz, la traducción de voz y Speech Studio. Luego, utilice la suscripción al Servicio de voz para crear su primer proyecto de Custom Speech.
Carga de datos de prueba. Cargue datos de prueba (archivos de audio) para evaluar la oferta de conversión de voz a texto de Microsoft para sus aplicaciones, herramientas y productos.
Inspección de la calidad del reconocimiento. Use Speech Studio para reproducir el audio cargado e inspeccionar la calidad del reconocimiento de voz de los datos de prueba. Para conocer las medidas cuantitativas, consulte Inspección de los datos.
Evaluación y mejora de la precisión. Evalúe y mejore la precisión del modelo de conversión de voz a texto. Speech Studio proporcionará una tasa de errores de palabras, que se puede usar para determinar si se necesita más entrenamiento. Si está satisfecho con la precisión, puede usar directamente las API del servicio de voz. Si desea mejorar la precisión en una media relativa entre el 5 y el 20 %, use la pestaña Entrenamiento del portal para cargar datos de entrenamiento adicionales, como transcripciones con etiqueta humana y texto relacionado.
Entrenamiento e implementación de un modelo. Mejore la precisión del modelo de conversión de voz a texto incorporando transcripciones escritas (entre 10 y 1000 horas) y texto relacionado (menos de 200 MB) junto con los datos de prueba de audio. Estos datos ayudan a entrenar el modelo de conversión de voz a texto. Después del entrenamiento, vuelva a realizar la prueba. Si el resultado es satisfactorio, puede implementar el modelo en un punto de conexión personalizado.
Configuración de la cuenta de Azure
Es preciso tener una cuenta de Azure y una suscripción al servicio Voz para poder usar Speech Studio para crear un modelo personalizado. Si no dispone de una cuenta y una suscripción, pruebe el servicio de voz de forma gratuita.
Si tiene previsto entrenar un modelo personalizado con datos de audio, elija una de las siguientes regiones que tengan hardware dedicado disponible para el entrenamiento. Esto reducirá el tiempo necesario para entrenar un modelo y le permitirá usar más audio para el entrenamiento. En estas regiones, el servicio Voz usará hasta 20 horas de audio para el entrenamiento; en otras regiones solo usará hasta 8 horas.
- Este de Australia
- Centro de Canadá
- Centro de la India
- Este de EE. UU.
- Este de EE. UU. 2
- Centro-Norte de EE. UU
- Norte de Europa
- Centro-sur de EE. UU.
- Sudeste de Asia
- Sur de Reino Unido
- US Gov: Arizona
- US Gov - Virginia
- Oeste de Europa
- Oeste de EE. UU. 2
Tras crear una cuenta de Azure y una suscripción al servicio Voz, deberá iniciar sesión en Speech Studio y conectarse a su suscripción.
- Inicie sesión en Speech Studio.
- Seleccione la suscripción que necesita para trabajar y crear un proyecto de voz.
- Si desea modificarla, seleccione el botón del engranaje en el menú superior.
Creación de un proyecto
El contenido, como datos, modelos, pruebas y puntos de conexión, se organiza en proyectos en Speech Studio. Cada proyecto es específico de un dominio y un país o idioma. Por ejemplo, puede crear un proyecto para centros de llamadas que usan el inglés en Estados Unidos.
Para crear el primer proyecto, seleccione Speech-to-text/Custom speech (Conversión de voz a texto/Conversión de voz personalizada) y, después, haga clic en New project (Nuevo proyecto). Siga las instrucciones del asistente para crear el proyecto. Después de crear el proyecto, debería ver cuatro pestañas: Datos, Pruebas, Entrenamiento e Implementación. Use los vínculos incluidos en Pasos siguientes para aprender a usar cada pestaña.
Importante
Speech Studio (antes conocido como "portal de Habla personalizada") se ha actualizado recientemente. Si creó datos, modelos y pruebas anteriores y publicó puntos de conexión en el portal CRIS.ai o con API, debe crear un nuevo proyecto en el nuevo portal para conectarse a estas entidades antiguas.
Ciclo de vida del modelo y el punto de conexión
Los modelos anteriores normalmente dejan pierden utilidad con el tiempo, ya que el modelo más reciente suele tener mayor precisión. Por lo tanto, los modelos base, así como los modelos y puntos de conexión personalizados creados a través del portal, están sujetos a expiración después de un año para la adaptación y dos años para la descodificación. Consulte una descripción detallada en el artículo Ciclo de vida del modelo y el punto de conexión.