¿Qué es Speech Service?What is the Speech service?

El servicio de voz es la unificación de las funcionalidades de conversión de voz a texto, conversión de texto a voz y traducción de voz en una sola suscripción de Azure.The Speech service is the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. Es fácil habilitar voz en sus aplicaciones, herramientas y dispositivos con el SDK de voz, el SDK de dispositivos de voz o las API de REST.It's easy to speech enable your applications, tools, and devices with the Speech SDK, Speech Devices SDK, or REST APIs.

Importante

El servicio de voz ha reemplazado a Bing Speech API y Translator Speech.The Speech service has replaced Bing Speech API and Translator Speech. Consulte Guías de procedimientos > Migración para obtener instrucciones de migración.See How-to guides > Migration for migration instructions.

Estas características conforman el Servicio de voz.These features make up the Speech service. Use los vínculos en esta tabla para obtener más información sobre los casos de uso comunes para cada característica o examinar la referencia de API.Use the links in this table to learn more about common use cases for each feature or browse the API reference.

ServicioService CaracterísticaFeature DescripciónDescription SDKSDK RESTREST
Voz a textoSpeech-to-Text Conversión de voz en texto en tiempo realReal-time Speech-to-text La conversión de voz en texto transcribe o traduce en tiempo real secuencias de audio o archivos de audio a texto que sus aplicaciones, herramientas o dispositivos pueden consumir o mostrar.Speech-to-text transcribes or translates audio streams or local files to text in real time that your applications, tools, or devices can consume or display. Use voz a texto con Language Understanding (LUIS) para derivar las intenciones del usuario a partir de voz transcrita y actuar en los comandos de voz.Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. Yes Yes
Conversión de voz en texto por lotesBatch Speech-to-Text La conversión de voz a texto por lotes permite la transcripción asincrónica de voz en texto de grandes volúmenes de datos de audio de voz almacenados en Azure Blob Storage.Batch Speech-to-text enables asynchronous speech-to-text transcription of large volumes of speech audio data stored in Azure Blob Storage. Además de convertir el audio de la voz en texto, la conversión de voz en texto por lotes también permite la diarización y el análisis de opiniones.In addition to converting speech audio to text, Batch Speech-to-text also allows for diarization and sentiment-analysis. NoNo Yes
Conversación entre varios dispositivosMulti-device Conversation Conexión de varios dispositivos o clientes en una conversación para enviar mensajes basados en voz o texto, con compatibilidad sencilla con transcripción y traducciónConnect multiple devices or clients in a conversation to send speech- or text-based messages, with easy support for transcription and translation Yes NoNo
Transcripción de conversacionesConversation Transcription Permite el reconocimiento de voz en tiempo real, la identificación del hablante y la diarización.Enables real-time speech recognition, speaker identification, and diarization. Es perfecto para transcribir reuniones en persona con la capacidad de distinguir a los oradores.It's perfect for transcribing in-person meetings with the ability to distinguish speakers. Yes NoNo
Creación de modelos de Habla personalizadaCreate Custom Speech Models Si usa voz a texto para el reconocimiento y la transcripción en un entorno único, puede crear y entrenar modelos acústicos, de lenguaje y pronunciación personalizados para dirigir el sonido ambiental o vocabulario específico del sector.If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. NoNo Yes
Texto a vozText-to-Speech Texto a vozText-to-speech Texto a voz convierte el texto de entrada en voz sintetizada similar a la humana mediante el Lenguaje de marcado de síntesis de voz (SSML).Text-to-speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Elija entre voces estándar y voces neuronales (consulte Compatibilidad de idioma).Choose from standard voices and neural voices (see Language support). Yes Yes
Creación de voces personalizadasCreate Custom Voices Cree fuentes de voz personalizadas únicas para su marca o producto.Create custom voice fonts unique to your brand or product. NoNo Yes
Traducción de vozSpeech Translation Traducción de vozSpeech translation La traducción de voz habilita la traducción de voz en varios idiomas en tiempo real en sus aplicaciones, herramientas y dispositivos.Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. Use este servicio para la traducción de voz a voz y voz a texto.Use this service for speech-to-speech and speech-to-text translation. Yes NoNo
Asistentes de vozVoice assistants Asistentes de vozVoice assistants Los asistentes de voz que utilizan el Servicio de voz permiten a los desarrolladores crear interfaces de conversación naturales, similares a la humana, para sus aplicaciones y experiencias.Voice assistants using the Speech service empower developers to create natural, human-like conversational interfaces for their applications and experiences. El servicio del asistente de voz proporciona una interacción rápida y confiable entre un dispositivo y una implementación de asistente que usa el canal de voz de Direct Line Speech de Bot Framework o el servicio integrado de comandos personalizados (versión preliminar) para la finalización de tareas.The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework's Direct Line Speech channel or the integrated Custom Commands (Preview) service for task completion. Yes NoNo
Speaker RecognitionSpeaker Recognition Verificación e identificación del hablanteSpeaker verification & identification El servicio Speaker Recognition proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas.The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Speaker Recognition se usa para responder a la pregunta "¿quién está hablando?".Speaker Recognition is used to answer the question “who is speaking?”. Yes Yes

Importante

TLS 1.2 ya se exige en todas las solicitudes HTTP para este servicio.TLS 1.2 is now enforced for all HTTP requests to this service. Para más información, consulte Seguridad de Azure Cognitive Services.For more information, see Azure Cognitive Services security.

Prueba del Servicio de vozTry the Speech service

Ofrecemos guías de inicio rápido en los lenguajes de programación más populares, cuyo diseño individual le permite ejecutar código en menos de 10 minutos.We offer quickstarts in most popular programming languages, each designed to have you running code in less than 10 minutes. En esta tabla se incluyen las guías de inicio rápido más populares para cada característica.This table contains the most popular quickstarts for each feature. Use el menú de navegación izquierdo para explorar lenguajes y plataformas adicionales.Use the left-hand navigation to explore additional languages and platforms.

Voz a texto (SDK)Speech-to-text (SDK) Texto a voz (SDK)Text-to-Speech (SDK) Traducción (SDK)Translation (SDK)
Reconocimiento de voz de un archivo de audioRecognize speech from an audio file Síntesis de voz en un archivo de audioSynthesize speech into an audio file Traducción de voz a textoTranslate speech to text
Reconocimiento de voz con un micrófonoRecognize speech with a microphone Síntesis de voz en un altavozSynthesize speech to a speaker Traducción de voz a varios idiomas de destinoTranslate speech to multiple target languages
Reconocimiento de voz almacenada en Blob StorageRecognize speech stored in blob storage Síntesis asincrónica para audio de formato largoAsync synthesis for long-form audio Traducción de voz a vozTranslate speech-to-speech

Nota

Voz a texto y texto a voz también tienen asociados puntos de conexión REST e inicios rápidos.Speech-to-text and text-to-speech also have REST endpoints and associated quickstarts.

Una vez que haya tenido la oportunidad de usar el servicio de voz, pruebe nuestros tutoriales, que le enseñarán a resolver distintos escenarios.After you've had a chance to use the Speech service, try our tutorials that teach you how to solve various scenarios.

Obtención de código de ejemploGet sample code

Hay código de ejemplo para el Servicio de voz disponible en GitHub.Sample code is available on GitHub for the Speech service. En estos ejemplos se tratan escenarios comunes como la lectura de audio de un archivo o flujo, el reconocimiento continuo y de una sola emisión, y el trabajo con modelos personalizados.These samples cover common scenarios like reading audio from a file or stream, continuous and single-shot recognition, and working with custom models. Use estos vínculos para ver ejemplos de SDK y REST:Use these links to view SDK and REST samples:

Personalización de su experiencia de vozCustomize your speech experience

El Servicio de voz funciona bien con los modelos integrados; sin embargo, es posible que desee personalizar y optimizar más la experiencia para su producto o entorno.The Speech service works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Las opciones de personalización abarcan desde la optimización de modelos acústicos a fuentes de voz únicas para su marca.Customization options range from acoustic model tuning to unique voice fonts for your brand.

Speech ServiceSpeech Service PlataformaPlatform DescripciónDescription
Voz a textoSpeech-to-Text Habla personalizadaCustom Speech El reconocimiento de voz personalizado se adapta a sus necesidades y datos disponibles.Customize speech recognition models to your needs and available data. Elimine las barreras del reconocimiento de voz, como el estilo de habla, el vocabulario y el ruido de fondo.Overcome speech recognition barriers such as speaking style, vocabulary and background noise.
Text-to-SpeechText-to-Speech Voz personalizadaCustom Voice Cree una voz reconocible única para las aplicaciones de texto a voz con los datos de habla disponibles.Build a recognizable, one-of-a-kind voice for your Text-to-Speech apps with your speaking data available. Puede optimizar aún más las salidas de voz ajustando un conjunto de parámetros de voz.You can further fine-tune the voice outputs by adjusting a set of voice parameters.

Documentos de referenciaReference docs

Pasos siguientesNext steps