Interacciones de vozSpeech interactions

Integra el reconocimiento de voz y texto a voz (también denominado TTS o síntesis de voz) directamente en la experiencia del usuario de la aplicación.Integrate speech recognition and text-to-speech (also known as TTS, or speech synthesis) directly into the user experience of your app.

Reconocimiento de voz El reconocimiento de voz convierte las palabras que habla el usuario en texto para la entrada de formulario, para el dictado de texto, para especificar una acción o un comando, y para realizar tareas.Speech recognition Speech recognition converts words spoken by the user into text for form input, for text dictation, to specify an action or command, and to accomplish tasks. Las gramáticas predefinidas para el dictado de texto libre y la búsqueda web, y las gramáticas personalizadas creadas con la versión 1.0 de la Especificación de gramática de reconocimiento de voz (SRGS) son compatibles.Both pre-defined grammars for free-text dictation and web search, and custom grammars authored using Speech Recognition Grammar Specification (SRGS) Version 1.0 are supported.

TTS TTS usa un motor de síntesis de voz (Voice) para convertir una cadena de texto en palabras pronunciadas.TTS TTS uses a speech synthesis engine (voice) to convert a text string into spoken words. La cadena de entrada puede ser texto básico y sin adornos o Lenguaje de marcado de síntesis de voz (SSML) más complejo.The input string can be either basic, unadorned text or more complex Speech Synthesis Markup Language (SSML). SSML proporciona una forma estándar de controlar características de la salida de voz, como la pronunciación, el volumen, el tono, la velocidad o el énfasis.SSML provides a standard way to control characteristics of speech output, such as pronunciation, volume, pitch, rate or speed, and emphasis.

Otros componentes relacionados con la voz: Cortana en aplicaciones Windows usa comandos de voz personalizados (hablados o con tipo) para iniciar la aplicación en primer plano (la aplicación toma el foco, como si se iniciara desde el menú Inicio) o activar como un servicio en segundo plano ( Cortana conserva el foco pero proporciona resultados de la aplicación).Other speech-related components: Cortana in Windows applications uses customized voice commands (spoken or typed) to launch your app to the foreground (the app takes focus, just as if it was launched from the Start menu) or activate as a background service ( Cortana retains focus but provides results from the app). Consulte las instrucciones del comando de voz de Cortana (VCD) si expone la funcionalidad de la aplicación en la interfaz de usuario de Cortana .See the Cortana voice command (VCD) guidelines if you are exposing app functionality in the Cortana UI.

Diseño de la interacción mediante vozSpeech interaction design

Si se diseña y se implementa con cuidado, la voz puede ser una forma eficaz y divertida de que la gente interactúe con tu aplicación, que además complementa (llegando incluso a sustituir) al teclado, el mouse, la interacción táctil o los gestos.Designed and implemented thoughtfully, speech can be a robust and enjoyable way for people to interact with your app, complementing, or even replacing, keyboard, mouse, touch, and gestures.

En estas directrices y recomendaciones se describe cómo integrar reconocimiento de voz y TTS en la experiencia de interacción de la aplicación.These guidelines and recommendations describe how to best integrate both speech recognition and TTS into the interaction experience of your app.

Si estás pensando en dar soporte a las interacciones de voz en la aplicación:If you are considering supporting speech interactions in your app:

  • ¿Qué acciones pueden realizarse a través de la voz?What actions can be taken through speech? ¿Puede un usuario navegar entre páginas, invocar comandos o escribir datos como campos de texto, notas breves o mensajes largos?Can a user navigate between pages, invoke commands, or enter data as text fields, brief notes, or long messages?
  • ¿La entrada de voz es una buena opción para completar una tarea?Is speech input a good option for completing a task?
  • ¿Cómo sabe un usuario cuándo está disponible la entrada de voz?How does a user know when speech input is available?
  • ¿Está la aplicación siempre escuchando o el usuario necesita realizar una acción para que la aplicación entre en modo de escucha?Is the app always listening, or does the user need to take an action for the app to enter listening mode?
  • ¿Qué frases inician una acción o comportamiento?What phrases initiate an action or behavior? ¿Las frases y las acciones deben enumerarse en pantalla?Do the phrases and actions need to be enumerated on screen?
  • ¿Son necesarias las pantallas de confirmación y desambiguación o TTS?Are prompt, confirmation, and disambiguation screens or TTS required?
  • ¿Qué es el diálogo de interacción entre la aplicación y el usuario?What is the interaction dialog between app and user?
  • ¿Es necesario un vocabulario restringido o personalizado (por ejemplo, medicina, ciencia o configuración regional) para el contexto de la aplicación?Is a custom or constrained vocabulary required (such as medicine, science, or locale) for the context of your app?
  • ¿Es necesaria la conectividad de red?Is network connectivity required?

Entrada de textoText input

La voz para entrada de texto puede oscilar entre formato corto (una única palabra o frase) y formato largo (dictado continuo).Speech for text input can range from short form (single word or phrase) to long form (continuous dictation). La entrada de formato corto debe tener menos de 10 segundos de longitud, mientras que la sesión de entrada de formato largo puede tener un máximo de dos minutos de longitud.Short form input must be less than 10 seconds in length, while long form input session can be up to two minutes in length. (La entrada de formato largo puede reiniciarse sin intervención del usuario para dar la impresión de dictado continuo).(Long form input can be restarted without user intervention to give the impression of continuous dictation.)

Debes proporcionar una indicación visual para indicar que el reconocimiento de voz es compatible, que está disponible para el usuario y si el usuario necesita activarlo.You should provide a visual cue to indicate that speech recognition is supported and available to the user and whether the user needs to turn it on. Por ejemplo, un botón de la barra de comandos con un glifo de micrófono (consulta Barras de comando) puede usarse para mostrar la disponibilidad y el estado.For example, a command bar button with a microphone glyph (see Command bars) can be used to show both availability and state.

Ofrece comentarios sobre reconocimiento continuos para reducir cualquier falta de respuesta aparente mientras se realiza el reconocimiento.Provide ongoing recognition feedback to minimize any apparent lack of response while recognition is being performed.

Permite que los usuarios revisen el texto de reconocimiento con la entrada de teclado, opciones de desambiguación, sugerencias o reconocimiento de voz adicionales.Let users revise recognition text using keyboard input, disambiguation prompts, suggestions, or additional speech recognition.

Detén el reconocimiento si se detecta entrada desde un dispositivo que no sea el reconocimiento de voz, como entrada de teclado o táctil.Stop recognition if input is detected from a device other than speech recognition, such as touch or keyboard. Probablemente esto indica que el usuario se ha movido a otra tarea, como la corrección del texto de reconocimiento o la interacción con otros campos del formulario.This probably indicates that the user has moved onto another task, such as correcting the recognition text or interacting with other form fields.

Especifica el intervalo de tiempo sin entrada de voz que indica que el reconocimiento ha finalizado.Specify the length of time for which no speech input indicates that recognition is over. No reinicies automáticamente el reconocimiento después de este período de tiempo, ya que suele indicar que el usuario ha dejado de interactuar con la aplicación.Do not automatically restart recognition after this period of time as it typically indicates the user has stopped engaging with your app.

Deshabilita la interfaz de usuario de reconocimiento continuo y finaliza la sesión de reconocimiento si no hay disponible una conexión de red.Disable all continuous recognition UI and terminate the recognition session if a network connection is not available. El reconocimiento continuo requiere una conexión de red.Continuous recognition requires a network connection.

ComandosCommanding

La entrada de voz puede iniciar acciones, invocar comandos y realizar tareas.Speech input can initiate actions, invoke commands, and accomplish tasks.

Si el espacio lo permite, considera la posibilidad de mostrar las respuestas compatibles para el contexto actual de la aplicación, con ejemplos de entrada válidos.If space permits, consider displaying the supported responses for the current app context, with examples of valid input. Esto reduce las posibles respuestas que la aplicación debe procesar y también elimina las confusión del usuario.This reduces the potential responses your app has to process and also eliminates confusion for the user.

Intenta plantear preguntas cerradas para que den lugar a una respuesta lo más específica posible.Try to frame your questions such that they elicit as specific a response as possible. Por ejemplo, "¿Qué quieres hacer hoy?"For example, "What do you want to do today?" tiene un final muy abierto y requeriría una definición gramática muy grande debido a la gran variedad de respuestas que podría tener.is very open ended and would require a very large grammar definition due to how varied the responses could be. Como alternativa, "¿Quieres jugar o escuchar música?"Alternatively, "Would you like to play a game or listen to music?" limita la respuesta a una de dos respuestas válidas con una definición gramática proporcionalmente pequeña.constrains the response to one of two valid answers with a correspondingly small grammar definition. Una gramática pequeña es mucho más fácil de crear y da lugar a resultados de reconocimiento mucho más precisos.A small grammar is much easier to author and results in much more accurate recognition results.

Pide confirmación por parte del usuario cuando la confianza del reconocimiento de voz es baja.Request confirmation from the user when speech recognition confidence is low. Si la intención del usuario no está clara, es mejor obtener una aclaración que iniciar una acción no intencionada.If the user's intent is unclear, it's better to get clarification than to initiate an unintended action.

Debes proporcionar una indicación visual para indicar que el reconocimiento de voz es compatible, que está disponible para el usuario y si el usuario necesita activarlo.You should provide a visual cue to indicate that speech recognition is supported and available to the user and whether the user needs to turn it on. Por ejemplo, un botón de la barra de comandos con un glifo de micrófono (consulta Directrices para las barras de comandos) puede usarse para mostrar la disponibilidad y el estado.For example, a command bar button with a microphone glyph (see Guidelines for command bars) can be used to show both availability and state.

Si el conmutador de reconocimiento de voz está generalmente visible, considera la posibilidad de mostrar un indicador de estado en el área de contenido de la aplicación.If the speech recognition switch is typically out of view, consider displaying a state indicator in the content area of the app.

Si el usuario inicia el reconocimiento, considera la posibilidad de usar la funcionalidad de reconocimiento integrada para mantener la coherencia.If recognition is initiated by the user, consider using the built-in recognition experience for consistency. La funcionalidad integrada incluye pantallas personalizables con avisos, ejemplos, desambigüaciones, confirmaciones y errores.The built-in experience includes customizable screens with prompts, examples, disambiguations, confirmations, and errors.

Las pantallas varían en función de las restricciones especificadas:The screens vary depending on the specified constraints:

  • Gramática predefinida (dictado o búsqueda web)Pre-defined grammar (dictation or web search)

    • La pantalla Escucha .The Listening screen.
    • La pantalla Procesando .The Thinking screen.
    • La pantalla Te he oído o la pantalla de error.The Heard you say screen or the error screen.
  • Lista de palabras o frases o un archivo de gramática SRGSList of words or phrases, or a SRGS grammar file

    • La pantalla Escucha .The Listening screen.
    • La pantalla Has dicho , si lo que el usuario ha dicho pudiera interpretarse como más de un posible resultado.The Did you say screen, if what the user said could be interpreted as more than one potential result.
    • La pantalla Te he oído o la pantalla de error.The Heard you say screen or the error screen.

En la pantalla Escucha puedes hacer lo siguiente:On the Listening screen you can:

  • Personalizar el texto del título.Customize the heading text.
  • Proporcionar un texto de ejemplo de lo que el usuario puede decir.Provide example text of what the user can say.
  • Especificar si se muestra la pantalla Te he oído .Specify whether the Heard you say screen is shown.
  • Volver a leer la cadena reconocida al usuario en la pantalla Te he oído .Read the recognized string back to the user on the Heard you say screen.

Este es un ejemplo del flujo de reconocimiento integrado para un reconocedor de voz que usa una restricción definida por SRGS.Here is an example of the built-in recognition flow for a speech recognizer that uses a SRGS-defined constraint. En este ejemplo, el reconocimiento de voz es correcto.In this example, speech recognition is successful.

initial reconocimiento screen for a constraint based on a sgrs grammar file

pantalla de reconocimiento intermedio para una restricción basada en un archivo de gramática SGRS

pantalla de reconocimiento final para una restricción basada en un archivo de gramática SGRS

Siempre escuchandoAlways listening

La aplicación puede escuchar y reconocer la entrada de voz en cuanto se inicia la aplicación, sin la intervención del usuario.Your app can listen for and recognize speech input as soon as the app is launched, without user intervention.

Se recomienda personalizar las restricciones de gramática basadas en el contexto de la aplicación.You should customize the grammar constraints based on the app context. Esto mantiene la funcionalidad de reconocimiento de voz muy dirigida y relevante para la tarea actual y reduce los errores.This keeps the speech recognition experience very targeted and relevant to the current task, and minimizes errors.

"¿Qué puedo decir?""What can I say?"

Cuando se habilita la entrada de voz, es importante ayudar a los usuarios a descubrir qué se puede entender exactamente y qué acciones se pueden realizar.When speech input is enabled, it's important to help users discover what exactly can be understood and what actions can be performed.

Si el reconocimiento de voz está habilitado por el usuario, considera la posibilidad de usar la barra de comandos o un comando de menú para mostrar todas las palabras y frases que se admiten en el contexto actual.If speech recognition is user enabled, consider using the command bar or a menu command to show all words and phrases supported in the current context.

Si el reconocimiento de voz está siempre activado, considera la posibilidad de agregar la frase "¿Qué puedo decir?".If speech recognition is always on, consider adding the phrase "What can I say?" en cada página.to every page. Cuando el usuario dice esta frase, muestra todas las palabras y frases que se admiten en el contexto actual.When the user says this phrase, display all words and phrases supported in the current context. El uso de esta frase proporciona un modo coherente para los usuarios de descubrir las capacidades de voz en el sistema.Using this phrase provides a consistent way for users to discover speech capabilities across the system.

Errores de reconocimientoRecognition failures

El reconocimiento de voz fallará.Speech recognition will fail. Los errores ocurren cuando la calidad de audio es deficiente, cuando solo se reconoce una parte de una frase o cuando no se detecta ninguna entrada.Failures happen when audio quality is poor, when only part of a phrase is recognized, or when no input is detected at all.

Controla el error correctamente, ayuda al usuario a comprender el motivo del error de reconocimiento y soluciónalo.Handle failure gracefully, help a user understand why recognition failed, and recover.

La aplicación debe informar al usuario de que no se le comprendió y de que debe intentarlo de nuevo.Your app should inform the user that they weren't understood and that they need to try again.

Considera la posibilidad de proporcionar ejemplos de una o más frases admitidas.Consider providing examples of one or more supported phrases. Es probable que el usuario repita una frase sugerida, lo que aumenta el éxito de reconocimiento.The user is likely to repeat a suggested phrase, which increases recognition success.

Debes mostrar una lista de posibles coincidencias para que el usuario pueda seleccionar una de entre las mismas.You should display a list of potential matches for a user to select from. Esto puede ser mucho más eficiente que pasar por el proceso de reconocimiento de nuevo.This can be far more efficient than going through the recognition process again.

Siempre debes admitir tipos de entrada alternativos, lo que es especialmente útil para controlar los errores de reconocimiento repetidos.You should always support alternative input types, which is especially helpful for handling repeated recognition failures. Por ejemplo, podrías sugerir que el usuario intente usar un teclado, o la entrada táctil o un mouse para seleccionar de una lista de posibles coincidencias.For example, you could suggest that the user try to use a keyboard, or use touch or a mouse to select from a list of potential matches.

Usa la funcionalidad de reconocimiento de voz integrada, ya que incluye pantallas que indican al usuario que el reconocimiento no fue correcto y le permiten volver a intentar el reconocimiento de nuevo.Use the built-in speech recognition experience as it includes screens that inform the user that recognition was not successful and lets the user make another recognition attempt.

Escucha e intenta subsanar los problemas en las entradas de audio.Listen for and try to correct issues in the audio input. El reconocedor de voz puede detectar problemas con la calidad de audio que podrían afectar negativamente a la precisión del reconocimiento de voz.The speech recognizer can detect issues with the audio quality that might adversely affect speech recognition accuracy. Puedes usar la información proporcionada por el reconocedor de voz para informar al usuario del problema y permitirle tomar medidas correctivas, si es posible.You can use the information provided by the speech recognizer to inform the user of the issue and let them take corrective action, if possible. Por ejemplo, si la configuración de volumen del micrófono es demasiado baja, puedes pedir al usuario que hable más alto o que suba el volumen.For example, if the volume setting on the microphone is too low, you can prompt the user to speak louder or turn the volume up.

RestriccionesConstraints

Las restricciones, o las gramáticas, definen las palabras y frases que el reconocedor de voz puede hallar.Constraints, or grammars, define the spoken words and phrases that can be matched by the speech recognizer. Puedes especificar una de las gramáticas de servicio web predefinidas o puedes crear una gramática personalizada que se instala con la aplicación.You can specify one of the pre-defined web service grammars or you can create a custom grammar that is installed with your app.

Gramáticas predefinidasPredefined grammars

Las gramáticas predefinidas de dictado y búsqueda en Internet proporcionan a tu aplicación la funcionalidad de reconocimiento de voz sin necesidad de crear una gramática.Predefined dictation and web-search grammars provide speech recognition for your app without requiring you to author a grammar. Al usar estas gramáticas, un servicio web remoto se encarga de llevar a cabo el reconocimiento de voz y los resultados se devuelven al dispositivo.When using these grammars, speech recognition is performed by a remote web service and the results are returned to the device

  • La gramática predeterminada de dictado de texto libre tiene la capacidad de reconocer la mayoría de las palabras y frases que un usuario puede decir en un idioma en particular y está optimizada para reconocer frases cortas.The default free-text dictation grammar can recognize most words and phrases that a user can say in a particular language, and is optimized to recognize short phrases. El dictado de texto libre es útil si no quieres limitar los tipos de términos que puede decir un usuario.Free-text dictation is useful when you don't want to limit the kinds of things a user can say. Entre los usos típicos se incluyen la creación de notas o el dictado del contenido de un mensaje.Typical uses include creating notes or dictating the content for a message.
  • La gramática de búsqueda web, como una gramática de dictado, contiene un gran número de palabras y frases que puede decir un usuario.The web-search grammar, like a dictation grammar, contains a large number of words and phrases that a user might say. Sin embargo, está optimizada para reconocer los términos que suelen usar las personas cuando buscan en la web.However, it is optimized to recognize terms that people typically use when searching the web.

Nota

Debido a que las gramáticas predefinidas de dictado y búsqueda en Internet pueden ser grandes y se accede a ellas a través de Internet (no se encuentran en el dispositivo), su rendimiento puede no ser tan rápido como el de una gramática personalizada instalada en el dispositivo.Because predefined dictation and web-search grammars can be large, and because they are online (not on the device), performance might not be as fast as with a custom grammar installed on the device.

Estas gramáticas predefinidas pueden usarse para reconocer hasta 10 segundos de entrada de voz y no requieren ningún esfuerzo de edición por su parte.These predefined grammars can be used to recognize up to 10 seconds of speech input and require no authoring effort on your part. Sin embargo, sí requieren una conexión a una red.However, they do require connection to a network.

Gramáticas personalizadasCustom grammars

Una gramática personalizada se ha diseñado y creado por el usuario y se instala con la aplicación.A custom grammar is designed and authored by you and is installed with your app. El reconocimiento de voz con una restricción personalizada se realiza en el dispositivo.Speech recognition using a custom constraint is performed on the device.

  • Las restricciones de lista mediante programación ofrecen un enfoque ligero para la creación de gramáticas sencillas como, por ejemplo, una lista de palabras o frases.Programmatic list constraints provide a lightweight approach to creating simple grammars using a list of words or phrases. Una restricción de lista es efectiva para reconocer frases cortas y distintas.A list constraint works well for recognizing short, distinct phrases. Especificar explícitamente todas las palabras en una gramática también mejora la precisión del reconocimiento, porque el motor de reconocimiento de voz debe procesar la voz únicamente para confirmar una coincidencia.Explicitly specifying all words in a grammar also improves recognition accuracy, as the speech recognition engine must only process speech to confirm a match. La lista también se puede actualizar mediante programación.The list can also be programmatically updated.

  • Una gramática SRGS es un documento estático que, a diferencia de una restricción de lista mediante programación, usa el formato XML definido por SRGS versión 1.0.An SRGS grammar is a static document that, unlike a programmatic list constraint, uses the XML format defined by the SRGS Version 1.0. Una gramática SRGS proporciona el máximo control sobre la funcionalidad de reconocimiento de voz al permitir capturar varios significados semánticos en un solo reconocimiento.An SRGS grammar provides the greatest control over the speech recognition experience by letting you capture multiple semantic meanings in a single recognition.

    Estas son algunas sugerencias para crear gramáticas SRGS:Here are some tips for authoring SRGS grammars:

    • Reduce cada gramática al mínimo.Keep each grammar small. Las gramáticas que contienen pocas frases suelen proporcionar un reconocimiento más preciso que las gramáticas más extensas compuestas por más frases.Grammars that contain fewer phrases tend to provide more accurate recognition than larger grammars that contain many phrases. Es preferible tener varias gramáticas escuetas para escenarios específicos que tener una sola gramática para toda la aplicación.It's better to have several smaller grammars for specific scenarios than to have a single grammar for your entire app.
    • Permite que los usuarios sepan qué decir para cada contexto de la aplicación y habilitar y deshabilitar gramáticas según sea necesario.Let users know what to say for each app context and enable and disable grammars as needed.
    • Diseña cada gramática para que los usuarios puedan decir un comando de diferentes formas.Design each grammar so users can speak a command in a variety of ways. Por ejemplo, puedes usar la regla GARBAGE para que coincida con la entrada de voz que la gramática no define.For example, you can use the GARBAGE rule to match speech input that your grammar does not define. Esto permite a los usuarios decir más palabras que no tienen sentido para la aplicación.This lets users speak additional words that have no meaning to your app. Por ejemplo, "dame", "y", "uh", "quizás", etc.For example, "give me", "and", "uh", "maybe", and so on.
    • Usa el elemento sapi:subset como ayuda para encontrar entradas de voz.Use the sapi:subset element to help match speech input. Se trata de una extensión de Microsoft a la especificación de SRGS para ayudar a encontrar frases parciales.This is a Microsoft extension to the SRGS specification to help match partial phrases.
    • Intenta no definir frases en la gramática que contengan una sola sílaba.Try to avoid defining phrases in your grammar that contain only one syllable. El reconocimiento tiende a ser más exacto con frases con dos o más sílabas.Recognition tends to be more accurate for phrases containing two or more syllables.
    • Evita usar frases que suenen parecido.Avoid using phrases that sound similar. Por ejemplo, frases como "hola", "cola" y "bola" pueden confundir al motor de reconocimiento y la precisión del reconocimiento puede no ser buena.For example, phrases such as "hello", "bellow", and "fellow" can confuse the recognition engine and result in poor recognition accuracy.

Nota

El tipo de restricción que uses depende de la complejidad de la funcionalidad de reconocimiento que desees crear.Which type of constraint type you use depends on the complexity of the recognition experience you want to create. Cualquier enfoque puede ser la mejor opción para una tarea de reconocimiento determinada y puedes encontrar usos para todos los tipos de restricción en tu aplicación.Any could be the best choice for a specific recognition task, and you might find uses for all types of constraints in your app.

Pronunciaciones personalizadasCustom pronunciations

Si la aplicación contiene vocabulario especializado con palabras inusuales o ficticias, o palabras con pronunciaciones poco comunes, mejorarás el rendimiento del reconocimiento de esas palabras si defines pronunciaciones personalizadas.If your app contains specialized vocabulary with unusual or fictional words, or words with uncommon pronunciations, you might be able to improve recognition performance for those words by defining custom pronunciations.

Para una pequeña lista de palabras y frases, o una lista de palabras o frases poco usadas, puedes crear pronunciaciones personalizadas en una gramática SRGS.For a small list of words and phrases, or a list of infrequently used words and phrases, you can create custom pronunciations in a SRGS grammar. Consulta Elemento token para obtener más información.See token Element for more info.

En el caso de listas de palabras y frases más largas, o palabras o frases usadas con frecuencia, puedes crear documentos de lexicón de pronunciación independiente.For larger lists of words and phrases, or frequently used words and phrases, you can create separate pronunciation lexicon documents. Consulta Acerca de los lexicones y los alfabetos fonéticos para obtener más información.See About Lexicons and Phonetic Alphabets for more info.

PruebaTesting

Prueba la precisión del reconocimiento de voz y la interfaz de usuario compatible con el público objetivo de la aplicación.Test speech recognition accuracy and any supporting UI with your app's target audience. Esta es la mejor manera de determinar la eficacia de la funcionalidad de interacción de voz en la aplicación.This is the best way to determine the effectiveness of the speech interaction experience in your app. Por ejemplo, ¿los usuarios obtienen resultados de reconocimiento inexactos porque la aplicación no puede escuchar una frase común?For example, are users getting poor recognition results because your app isn't listening for a common phrase?

Modifica la gramática para admitir esta frase o proporciona a los usuarios una lista de frases admitidas.Either modify the grammar to support this phrase or provide users with a list of supported phrases. Si ya proporcionó la lista de frases admitidas, asegúrate de que sea fácilmente detectable.If you already provide the list of supported phrases, ensure it is easily discoverable.

Texto a voz (TTS)Text-to-speech (TTS)

TTS genera salidas de voz a partir de texto sin formato o SSML.TTS generates speech output from plain text or SSML.

Intenta diseñar mensajes educados y alentadores.Try to design prompts that are polite and encouraging.

Ten en cuenta si debes leer cadenas largas de texto.Consider whether you should read long strings of text. Una cosa es escuchar un mensaje de texto, pero otra bastante diferente es escuchar una lista larga de resultados de búsqueda difíciles de recordar.It's one thing to listen to a text message, but quite another to listen to a long list of search results that are difficult to remember.

Debes proporcionar controles de medios para permitir a los usuarios pausar o detener TTS.You should provide media controls to let users pause, or stop, TTS.

Debes escuchar todas las cadenas de TTS para garantizar que son inteligibles y suenan natural.You should listen to all TTS strings to ensure they are intelligible and sound natural.

  • Encadenar una secuencia de palabras inusuales o dictar números o signos de puntuación puede provocar que una frase sea ininteligible.Stringing together an unusual sequence of words or speaking part numbers or punctuation might cause a phrase to become unintelligible.
  • La voz puede sonar forzada cuando la prosodia o cadencia es diferente a cómo un hablante nativo diría una frase.Speech can sound unnatural when the prosody or cadence is different from how a native speaker would say a phrase.

Ambos problemas se pueden solucionar mediante el uso de SSML en lugar de texto sin formato como entrada para el sintetizador de voz.Both issues can be addressed by using SSML instead of plain text as input to the speech synthesizer. Para obtener más información sobre SSML, consulta Usar SSML para controlar la voz sintetizada y Referencia de Lenguaje de marcado de síntesis de voz.For more info about SSML, see Use SSML to Control Synthesized Speech and Speech Synthesis Markup Language Reference.

TemaTopic DescripciónDescription
Reconocimiento de vozSpeech recognition Usa el reconocimiento de voz para proporcionar datos de entrada, especificar una acción o un comando y realizar tareas.Use speech recognition to provide input, specify an action or command, and accomplish tasks.
Especificar el idioma del reconocedor de vozSpecify the speech recognizer language Obtén información sobre cómo seleccionar un idioma instalado para usarlo en el reconocimiento de voz.Learn how to select an installed language to use for speech recognition.
Definir restricciones de reconocimiento personalizadasDefine custom recognition constraints Aprende a definir y usar restricciones personalizadas para el reconocimiento de voz.Learn how to define and use custom constraints for speech recognition.
Habilitar dictado continuoEnable continuous dictation Obtén información sobre cómo capturar y reconocer la entrada de voz de dictado continuo de larga duración.Learn how to capture and recognize long-form, continuous dictation speech input.
Administrar problemas con la entrada de audioManage issues with audio input Aprende a administrar los problemas con la precisión del reconocimiento de voz causados por la calidad de la entrada de audio.Learn how to manage issues with speech-recognition accuracy caused by audio-input quality.
Establecer tiempos de espera de reconocimiento de vozSet speech recognition timeouts Establece durante cuánto tiempo un reconocedor de voz pasa por alto el silencio o los sonidos irreconocibles (balbuceo) y continúa escuchando la entrada de voz.Set how long a speech recognizer ignores silence or unrecognizable sounds (babble) and continues listening for speech input.

MuestrasSamples