Preguntas más frecuentes sobre la conversión de voz en texto

En este artículo se responden las preguntas más frecuentes sobre el servicio de conversión de voz en texto. Si no encuentra respuestas a sus preguntas aquí, consulte otras opciones de soporte técnico.

General

¿Qué diferencia hay entre un modelo base y un modelo personalizado de conversión de voz en texto personalizado?

Un modelo de línea base de conversión de voz en texto se ha entrenado con datos propiedad de Microsoft y ya está implementado en la nube. Puede crear y usar un modelo personalizado para que se ajuste mejor a un entorno que tenga ruido ambiental o idiomas concretos. Fábricas, coches o calles ruidosas requerirán un modelo acústico adaptado. Temas como la biología, la física, la radiología, los nombres de productos y los acrónimos personalizados requerirán un modelo de lenguaje adaptado. Si desea entrenar un modelo personalizado, debe comenzar con texto relacionado para mejorar el reconocimiento de términos y frases especiales.

¿Por dónde empiezo si quiero usar un modelo base?

Primero, obtenga una clave de recurso de voz y la región en Azure Portal. Si quiere realizar llamadas REST a un modelo base implementado previamente, consulte la documentación sobre las API REST. Si quiere usar WebSockets, descargue el SDK de Voz.

¿Siempre es necesario crear un modelo de voz personalizado?

No. Si en la aplicación se usa un lenguaje cotidiano genérico, no es necesario personalizar un modelo. Si la aplicación se usa en un entorno con poco o ningún ruido de fondo, tampoco es necesario personalizar un modelo.

Puede implementar modelos de línea de base y personalizados en el portal, y después ejecutar pruebas de precisión en ellos. Puede usar esta característica para medir la precisión de un modelo base con respecto a uno personalizado.

¿Cómo puedo saber que el procesamiento del conjunto de datos o modelo se ha completado?

Actualmente, ver el estado del modelo o del conjunto de datos en la tabla es la única manera de saberlo. Cuando se complete el procesamiento, el estado será Succeeded (Correcto).

¿Puedo crear más de un modelo?

No hay límite en cuanto al número de modelos que puede tener en la colección.

Me he dado cuenta de que me he equivocado. ¿Cómo cancelo una importación de datos o la creación del modelo que está en curso?

Actualmente no se puede revertir un proceso de adaptación acústica o de lenguaje. Puede eliminar los modelos y los datos importados cuando estén en un estado terminal.

Obtengo varios resultados para cada frase con el formato de salida detallado. ¿Cuál debo usar?

Tome siempre el primer resultado, incluso si otro resultado (de los "N mejores") puede tener un valor de confianza mayor. El servicio de voz considera que el primer resultado es el mejor. El resultado también puede ser una cadena vacía si no se reconoció ninguna voz.

Los demás resultados probablemente sean peores y puede que no tengan aplicado el uso completo de mayúsculas y los signos de puntuación. Estos resultados son principalmente útiles en escenarios especiales, como ofrecer a los usuarios la opción de elegir correcciones de una lista o tratar con comandos reconocidos incorrectamente.

¿Por qué hay varios modelos base?

Puede elegir entre varios modelos base en el servicio de voz. Cada nombre de modelo contiene la fecha en que se agregó. Cuando empiece a entrenar un modelo personalizado, use el modelo más reciente para obtener la mejor precisión. Cuando un nuevo modelo está disponible, los modelos base más antiguos siguen estando disponibles durante algún tiempo. Puede seguir usando el modelo con el que ha trabajado hasta que se retire (consulte Ciclo de vida del modelo y el punto de conexión). Aun así, se recomienda cambiar al modelo base más reciente para mejorar la precisión.

¿Puedo actualizar el modelo existente (apilamiento del modelo)?

Un modelo existente no se puede actualizar. Como solución alternativa, puede combinar el conjunto de datos anterior con el nuevo y readaptarlo.

El conjunto de datos antiguo y el nuevo se deben combinar en un único archivo ZIP (para datos acústicos) o en un archivo .txt (para datos de lenguaje). Una vez finalizada la adaptación, vuelva a implementar el nuevo modelo actualizado para obtener un nuevo punto de conexión.

Cuando hay una versión nueva de un modelo base, ¿la implementación se actualiza de forma automática?

Las implementaciones no se actualizan automáticamente.

Si ha adaptado e implementado un modelo, esa implementación existente permanecerá como está. El modelo implementado se puede retirar, volverse a adaptar con la versión más reciente del modelo base e implementarse de nuevo para mejorar la precisión.

Los modelos base y los modelos personalizados se retirarán después de un tiempo (consulte Ciclo de vida del modelo y el punto de conexión).

¿Puedo descargar mi modelo y ejecutarlo localmente?

Puede ejecutar un modelo personalizado localmente en un contenedor de Docker.

¿Puedo copiar o trasladar mis conjuntos de datos, modelos e implementaciones a otra región o suscripción?

Puede usar la API de REST de Models_Copy para copiar un modelo personalizado en otra región o suscripción. Los conjuntos de datos y las implementaciones no se pueden copiar. Puede importar de nuevo un conjunto de datos de otra suscripción y crear ahí puntos de conexión mediante las copias del modelo.

¿Se registran mis solicitudes?

De forma predeterminada, las solicitudes no se registran (ni audio ni transcripción). Si es necesario, puede seleccionar la opción Log content from this endpoint (Registrar contenido desde este punto de conexión) al crear un punto de conexión personalizado. También puede habilitar el registro de audio en el SDK de voz por solicitud sin tener que crear un punto de conexión personalizado. En ambos casos, los resultados de audio y reconocimiento de las solicitudes se guardarán en un almacenamiento seguro. En el caso de las suscripciones que usan almacenamiento de propiedad de Microsoft, estarán disponibles durante 30 días.

Puede exportar los archivos registrados en la página de implementación de Speech Studio si usa un punto de conexión personalizado con la opción Log content from this endpoint (Registrar contenido desde este punto de conexión) habilitada. Si el registro de audio se habilita a través del SDK, llame a la API para acceder a los archivos. También puede usar la API para eliminar los registros en cualquier momento.

¿Están limitadas mis solicitudes?

Para más información, consulte Cuotas y límites del servicio de voz.

¿Cómo se cobra el audio de canal doble?

Si envía cada canal por separado en su propio archivo, se le cobrará por la duración del audio de cada archivo. Si envía un solo archivo junto con los canales multiplexados, se le cobrará por la duración del archivo individual. Para más información sobre los precios, consulte la página de precios de servicios de Azure AI.

Importante

Si tiene más dudas sobre la privacidad que le impidan utilizar el servicio de habla personalizada, póngase en contacto con uno de los canales de soporte técnico.

Aumento de la simultaneidad

Para más información, consulte Cuotas y límites del servicio de voz.

Importar datos

¿Cuál es el límite de tamaño de un conjunto de datos, y por qué existe?

El límite se debe a la restricción en el tamaño de los archivos para la carga HTTP. Consulte Cuotas y límites del servicio de voz para conocer el límite real. Puede dividir los datos en varios conjuntos de datos y seleccionar todos ellos para entrenar el modelo.

¿Puedo comprimir mis archivos de texto para poder cargar un archivo de texto mayor?

No. Actualmente solo se permiten los archivos de texto no comprimidos.

El informe de datos indica que ha habido expresiones erróneas. ¿Cuál es el problema?

No es un problema que no se puedan cargar el 100 % de las expresiones de un archivo. Si la mayoría de las expresiones de un conjunto de datos acústicos o de lenguaje (por ejemplo, más del 95 %) se importan correctamente, el conjunto de datos se podrá usar. Pero se recomienda comprender la causa del error de las expresiones y solucionar el problema. Los problemas más comunes, como los errores de formato, son fáciles de corregir.

Creación de un modelo acústico

¿Cuántos datos acústicos necesito?

Se recomienda empezar con entre 30 minutos y 1 hora de datos acústicos.

¿Qué datos debo recopilar?

Recopile datos lo más cercanos posibles al escenario de aplicación y caso de uso. La colección de datos debe coincidir con la aplicación y los usuarios de destino en términos de dispositivo o dispositivos, entornos y tipos de hablante. En general, debe recopilar datos de un intervalo lo más amplio posible de hablantes.

¿Cómo debo recopilar los datos acústicos?

Puede crear una aplicación de recopilación de datos autónoma o usar software de grabación de audio comercial. También puede crear una versión de la aplicación que registre los datos de audio y después los use.

¿Debo transcribir los datos de adaptación yo mismo?

Sí. Puede transcribirlos usted mismo o utilizar un servicio de transcripción profesional. Algunos usuarios prefieren usar transcriptores profesionales, mientras que otros usan la colaboración abierta distribuida o realizan las transcripciones ellos mismos.

¿Cuánto tiempo se tardará en entrenar un modelo personalizado con datos de audio?

Entrenar un modelo con datos de audio puede ser un proceso largo. Dependiendo de la cantidad de datos, puede tardar varios días en crear un modelo personalizado. Si no se puede finalizar en una semana, el servicio podría anular la operación de entrenamiento y notificar que el modelo tiene errores.

En general, el servicio de voz procesa aproximadamente 10 horas de datos de audio al día en regiones con hardware dedicado. Solo puede procesar aproximadamente 1 hora de datos de audio al día en otras regiones. El entrenamiento solo con texto es más rápido y normalmente finaliza en cuestión de minutos.

Use una de las regiones donde se disponga de hardware dedicado para el entrenamiento. El servicio de Voz usa hasta 20 horas de audio para el entrenamiento en estas regiones. En otras regiones, el servicio de Voz usa hasta 8 horas.

Pruebas de precisión

¿Qué es Word Error Rate (WER) y cómo se calcula?

WER es la métrica de evaluación para el reconocimiento de voz. WER se cuenta como el número total de errores (inserciones, eliminaciones y sustituciones), dividido por el número total de palabras en la transcripción de referencia. Para más información, consulte Prueba del modelo de forma cuantitativa.

¿Cómo determino si los resultados de una prueba de precisión son correctos?

Los resultados muestran una comparación entre el modelo base y el personalizado. Para que la personalización sea útil, su objetivo debe ser superar el modelo base.

¿Cómo puedo determinar el valor WER de un modelo base para ver si se produjo una mejora?

Los resultados de la prueba sin conexión muestran la precisión de línea base del modelo personalizado y la mejora sobre la línea base.

Creación de un modelo de lenguaje

¿Cuántos datos de texto tengo que cargar?

Depende de la diferencia que exista entre el vocabulario y las frases que se usan en la aplicación y los modelos de lenguaje iniciales. Para todas las palabras nuevas, es útil proporcionar el máximo de ejemplos posible de utilización de estas palabras. Para las frases comunes que se usan en la aplicación, también es útil incluir frases en los datos de lenguaje y proporcionar muchos ejemplos, ya que indican al sistema que escuche también estos términos. Es habitual que haya al menos 100 y, normalmente, varios cientos de expresiones en el conjunto de datos de lenguaje o más. Además, si se espera que algunos tipos de consultas sean más habituales que otros, puede insertar varias copias de las consultas comunes en el conjunto de datos.

¿Puedo simplemente cargar una lista de palabras?

Cargar una lista de palabras las agrega al vocabulario, pero no enseña al sistema cómo se usan normalmente esas palabras. Al proporcionar expresiones completas o parciales (oraciones o frases que es probable que digan los usuarios), el modelo de lenguaje puede aprender las palabras nuevas y cómo se usan. El modelo de lenguaje personalizado es bueno no solo para agregar palabras nuevas al sistema, sino también para ajustar la probabilidad de palabras conocidas para la aplicación. Al proporcionar expresiones completas se ayuda al sistema a aprender mejor.