¿Qué es Custom Speech Service?What is Custom Speech Service?

Custom Speech Service es un servicio basado en la nube que ofrece a los usuarios la posibilidad de personalizar los modelos de voz para la transcripción de voz a texto.Custom Speech Service is a cloud-based service that provides users with the ability to customize speech models for Speech-to-Text transcription. Para usar Custom Speech Service, consulte el portal de Custom Speech Service.To use the Custom Speech Service, refer to the Custom Speech Service Portal.

Custom Speech Service le permite crear modelos de lenguaje y modelos acústicos personalizados adaptados a sus aplicaciones y usuarios.The Custom Speech Service enables you to create customized language models and acoustic models tailored to your application and your users. Al cargar datos de texto o voz específicos en Custom Speech Service, puede crear modelos personalizados que se pueden usar en combinación con los modelos de voz avanzados existentes de Microsoft.By uploading your specific speech and/or text data to the Custom Speech Service, you can create custom models that can be used in conjunction with Microsoft’s existing state-of-the-art speech models.

Por ejemplo, si va a agregar interacción de voz a un teléfono móvil, tableta o aplicación de PC, puede crear un modelo de lenguaje personalizado que se puede combinar con el modelo acústico de Microsoft para crear un punto de conexión de voz a texto diseñado especialmente para la aplicación.For example, if you’re adding voice interaction to a mobile phone, tablet or PC app, you can create a custom language model that can be combined with Microsoft’s acoustic model to create a speech-to-text endpoint designed especially for your app. Si la aplicación está diseñada para su uso en un entorno determinado o para una población de usuarios determinada, también puede crear e implementar un modelo acústico personalizado con este servicio.If your application is designed for use in a particular environment or by a particular user population, you can also create and deploy a custom acoustic model with this service.

¿Cómo funcionan los sistemas de reconocimiento de voz?How do speech recognition systems work?

Los sistemas de reconocimiento de voz constan de varios componentes que funcionan conjuntamente.Speech recognition systems are composed of several components that work together. Dos de los componentes más importantes son el modelo acústico y el modelo de lenguaje.Two of the most important components are the acoustic model and the language model.

El modelo acústico es un clasificador que etiqueta fragmentos cortos de audio en uno de una serie de fonemas, o unidades de sonido, en un idioma determinado.The acoustic model is a classifier that labels short fragments of audio into one of a number of phonemes, or sound units, in a given language. Por ejemplo, la palabra "voz" se compone de tres fonemas: "b o z".For example, the word “speech” is composed of four phonemes “s p iy ch”. Estas clasificaciones se llevan a cabo a razón de 100 veces por segundo.These classifications are made on the order of 100 times per second.

El modelo de lenguaje es una distribución de probabilidad en secuencias de palabras.The language model is a probability distribution over sequences of words. Ayuda al sistema a decidir entre secuencias de palabras que suenan de forma parecida, en función de la probabilidad de las propias secuencias de palabras.The language model helps the system decide among sequences of words that sound similar, based on the likelihood of the word sequences themselves. Por ejemplo, "bolsa de patatas fritas" y "bolsa de batatas fritas" suenan muy parecido, pero es mucho más probable la primera que la segunda y, por tanto, el modelo de lenguaje le asignará una puntuación más alta.For example, “recognize speech” and “wreck a nice beach” sound alike but the first hypothesis is far more likely to occur, and therefore will be assigned a higher score by the language model.

Los modelos acústico y de lenguaje son modelos estadísticos aprendidos de los datos de entrenamiento.Both the acoustic and language models are statistical models learned from training data. Como resultado, funcionan mejor cuando la voz que encuentran cuando se usan en las aplicaciones es parecida a los datos observados durante el entrenamiento.As a result, they perform best when the speech they encounter when used in applications is similar to the data observed during training. Los modelos acústico y de lenguaje del motor Speech to Text de Microsoft se han entrenado en una enorme colección de voz y texto y proporcionan un rendimiento avanzado en los escenarios de uso más comunes, como la interacción con Cortana en un smartphone, tableta o PC, la búsqueda en la Web mediante voz o el dictado de mensajes de texto a un amigo.The acoustic and language models in the Microsoft Speech-To-Text engine have been trained on an enormous collection of speech and text and provide state-of-the-art performance for the most common usage scenarios, such as interacting with Cortana on your smart phone, tablet or PC, searching the web by voice or dictating text messages to a friend.

¿Por qué usar Custom Speech Service?Why use the Custom Speech Service?

Aunque el motor Speech To Text de Microsoft es de primera clase, va dirigido a los escenarios descritos anteriormente.While the Microsoft Speech-To-Text engine is world-class, it is targeted toward the scenarios described above. No obstante, si cree que las consultas de voz que va a recibir su aplicación contendrán términos específicos, como nombres de producto o jerga que no suelen utilizarse en una conversación normal, es probable que obtenga un rendimiento mayor si personaliza el modelo de lenguaje.However, if you expect voice queries to your application to contain particular vocabulary items, such as product names or jargon that rarely occur in typical speech, it is likely that you can obtain improved performance by customizing the language model.

Por ejemplo, si fuera a crear una aplicación que realiza búsquedas en MSDN mediante voz, es probable que términos como "orientado a objetos", "espacio de nombres" o "punto net" aparezcan con más frecuencia que en aplicaciones de voz normales.For example, if you were building an app to search MSDN by voice, it’s likely that terms like “object-oriented” or “namespace” or “dot net” will appear more frequently than in typical voice applications. Al personalizar el modelo de lenguaje, se consigue que el sistema aprenda esto.Customizing the language model will enable the system to learn this.

Pasos siguientesNext steps

Para más información sobre cómo usar Custom Speech Service, consulte el portal de Custom Speech Service.For more information about how to use the Custom Speech Service, see the Custom Speech Service Portal.